透明报告论文复现胰腺癌集成学习SHAP

复现报告:胰腺癌尿液标志物预测 — AI的Logistic Regression和SVM反超原论文AUC,20分钟完成

复现报告:胰腺癌尿液标志物预测 — AI的Logistic Regression和SVM反超原论文AUC,20分钟完成

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Almisned, F.A., Usanase, N., Uzun Ozsahin, D. & Ozsahin, I. (2025). Incorporation of explainable artificial intelligence in ensemble machine learning-driven pancreatic cancer diagnosis. Scientific Reports, 15, 14038. DOI: 10.1038/s41598-025-98298-0

作者机构

  • Faisal Abdulaziz Almisned — 沙特阿拉伯国王沙特大学信息系统系
  • Natacha Usanase — 土耳其近东大学运筹学与生物医学工程系
  • Dilber Uzun Ozsahin — 近东大学 & 阿联酋沙迦大学
  • Ilker Ozsahin — 近东大学运筹学中心

数据集:Urinary Biomarkers for Pancreatic Cancer(Kaggle,源自Debernardi et al. 2020),590份尿液样本,14列特征。

复现范围

  • ✅ 覆盖:数据预处理、多模型训练、性能评估、SHAP可解释性分析
  • ✅ 覆盖:Stacking集成模型构建
  • ❌ 未覆盖:原论文的Decision Tree、Naive Bayes、KNN模型
  • ❌ 未覆盖:原论文的投票集成分类器及6种混合模型
  • ⚠️ 差异:原论文三分类(健康/良性/PDAC)→ AI二分类(PDAC vs 非PDAC)

执行记录

指标数值
总耗时20分钟(09:04 → 09:24)
产出文件46个
积分消耗446.56积分(¥4.47)
模型数量7种(含Stacking)
图表数量10张
交叉验证5折
消息轮次62轮

复现结果对比

特征重要性排序对比

排名原论文 SHAP (Figure 5)AI复现 SHAPSHAP值一致性
1Benign Sample Diagnosisplasma_CA19_91.5614
2TFF1LYVE11.0321⚠️ 均入Top 5
3LYVE1creatinine0.4245⚠️
4TFF10.4128✅ 两者均确认
5age0.3364
6REG1B0.2714
7REG1A0.2057
8sex0.0473

分析:排名差异主要源自任务定义不同。原论文保留三分类,"benign_sample_diagnosis"本身编码了疾病类型信息(如慢性胰腺炎),在三分类中具有极强区分力。AI将问题转为二分类后,该特征不再参与建模(因为只有良性样本有此字段值),plasma_CA19_9作为公认的胰腺癌血清标志物排名第一。两项研究均确认LYVE1和TFF1是核心尿液生物标志物

模型性能对比

模型原论文 Accuracy原论文 AUC-ROCAI AccuracyAI AUC-ROC来源
Logistic Regression86.44%89.54%88.14%95.26%Table 1
SVM78.81%87.30%86.44%94.46%Table 1
Random Forest94.07%99.08%90.68%96.86%Table 1
Gradient Boosting未单独报告未单独报告93.22%98.21%
XGBoost未单独报告未单独报告89.83%97.28%
LightGBM未单独报告未单独报告92.37%97.40%
Stacking集成92.37%98.08%
投票集成 (原论文)96.61%98.98%Table 2
投票-RF混合 (原论文)94.92%99.05%Table 3

:加粗表示AI反超原论文的指标。原论文未报告Gradient Boosting、XGBoost、LightGBM的单独结果。

模型性能对比

AI交叉验证结果

模型CV AccuracyCV AUC-ROC
Random Forest88.35%93.75%
LightGBM87.93%93.11%
XGBoost87.29%93.16%
Gradient Boosting86.87%93.68%
Logistic Regression81.77%89.12%
SVM81.56%88.12%

ROC曲线

差距原因分析

  1. 任务定义差异:原论文三分类 vs AI二分类。三分类保留了"良性"类别的内部区分(chronic pancreatitis vs 其他),使benign_sample_diagnosis成为强特征。二分类合并了健康和良性为"非PDAC",改变了特征重要性格局。

  2. 集成策略差异:原论文构建了投票集成+6种混合模型,经过系统筛选;AI仅使用了Stacking集成(Logistic Regression元学习器),未尝试投票策略。

  3. 线性模型反超:AI的Logistic Regression(AUC 95.26%)和SVM(AUC 94.46%)均超过原论文(89.54%和87.30%)。可能原因:a) 二分类问题更利于线性分离;b) 特征标准化策略不同;c) 正则化参数差异。

  4. 树模型差距:Random Forest在原论文中达到AUC 99.08%,AI仅96.86%。原论文可能进行了更精细的超参数调优。

AI做到了什么

  • ✅ 20分钟完成数据加载、预处理、7种模型训练、评估、SHAP分析
  • ✅ Gradient Boosting达到93.22%准确率、98.21% AUC,接近原论文最佳集成模型水平
  • ✅ 确认LYVE1和TFF1为核心尿液生物标志物,与原论文一致
  • ✅ Logistic Regression和SVM的AUC反超原论文
  • ✅ 生成10张完整的分析图表和46个产出文件
  • ✅ 完整的SHAP可解释性分析(summary plot、dependence plot、feature importance)

AI没做到什么

  • ❌ 未实现原论文的投票集成分类器(最佳方案,96.61%准确率)
  • ❌ 未测试Decision Tree、Naive Bayes、KNN
  • ❌ 未尝试6种混合模型组合
  • ❌ 将三分类简化为二分类,丢失了临床分期细节
  • ❌ Random Forest性能低于原论文约3.4个百分点(准确率)和2.2个百分点(AUC)
  • ❌ 未进行系统的超参数搜索
  • ❌ 未讨论临床应用场景和局限性

SHAP特征重要性

SHAP蜂群图

SHAP Dependence Plots

结论

AI在20分钟内建立了胰腺癌尿液标志物预测的完整baseline,最佳模型(Gradient Boosting, AUC 0.98)与原论文的投票集成(AUC 0.99)差距很小。值得注意的是,AI的线性模型(LR和SVM)在AUC上反超了原论文,显示二分类转换对简单模型更友好。

核心生物标志物发现(LYVE1、TFF1)与原论文一致,验证了尿液标志物在胰腺癌早筛中的潜力。但达到原论文96.61%准确率的投票集成方案,需要研究者对模型组合进行专业设计——这正是AI自动化与研究者专业判断的分工边界。

完整引用:Almisned, F.A., Usanase, N., Uzun Ozsahin, D. & Ozsahin, I. (2025). Incorporation of explainable artificial intelligence in ensemble machine learning-driven pancreatic cancer diagnosis. Scientific Reports, 15, 14038.

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究