透明报告论文复现神经科学阿尔茨海默病SHAP

复现报告:阿尔茨海默病集成学习预测 — Top 5预测因子完全一致,AI单模型全面超越原论文

复现报告:阿尔茨海默病集成学习预测 — Top 5预测因子完全一致,AI单模型全面超越原论文

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Hossain MK, Ashraf A, Islam MM, Sourav SH, Shimul MMH. Optimizing Alzheimer's disease prediction through ensemble learning and feature interpretability with SHAP-based feature analysis. Alzheimer's & Dementia: Diagnosis, Assessment & Disease Monitoring. 2025;17(3):e70162.

  • 作者机构:Daffodil International University(达芙迪国际大学),孟加拉国达卡
    • Hossain, Ashraf, Islam, Sourav:计算机科学与工程系
    • Shimul:公共卫生系
  • DOI:10.1002/dad2.70162
  • 数据集:Kaggle Alzheimer's Disease Dataset,2149 名患者(60-90 岁),36 个特征,AD 占 64.6%

复现范围

  • ✅ 覆盖:5 种 ML 模型训练(LR、RF、ET、GB、XGBoost)+ Stacking Ensemble + SHAP 分析
  • ✅ 覆盖:80:20 分层训练/测试集划分
  • ⚠️ 方法差异:原论文使用 Featurewiz + Tree-based Feature Importance + Chi-square 特征选择;AI 复现未使用完全相同的特征选择流程
  • ⚠️ 方法差异:原论文超参数通过 GridSearchCV 精细调优;AI 复现使用自动化调参
  • ❌ 未覆盖:原论文的 SMOTE/NearMiss 过采样对比实验

执行记录

指标数值
耗时48 分钟(22:03:48 → 22:51:13 UTC)
产出文件数41
数据审核通过数字225
待审核候选数字24(均为年份、样本量等非数据值)
文献引用数3 个来源检索
积分消耗509 积分(¥5.09)

复现结果对比

特征重要性排序对比(SHAP)

排名原论文(Figure 5)AI 复现SHAP 值一致性
1Functional AssessmentFunctional Assessment2.361✓ 一致
2ADLADL2.114✓ 一致
3Memory ComplaintsMemory Complaints1.540✓ 一致
4MMSEMMSE1.394✓ 一致
5Behavioral ProblemsBehavioral Problems1.328✓ 一致
6Cholesterol levelsCholesterolTotal0.281✓ 一致
7Alcohol ConsumptionCholesterolLDL0.259≈ 顺序微调
8Physical ActivityPhysical Activity0.234✓ 一致
9Diet QualitySleep Quality0.230≈ 顺序微调
10Sleep QualityAge0.227≈ 顺序微调

核心发现:Top 5 预测因子完全一致,且顺序完全相同。6-10 名存在细微顺序差异,但候选特征高度重叠。这证明功能评估、日常生活能力、记忆投诉、MMSE 和行为问题作为 AD 预测因子的稳健性不依赖于具体实现。

模型性能对比

模型原论文 Accuracy(Table 1)AI AccuracyAI AUCAI F1对比
Stacking Ensemble0.970.94570.95300.9224原论文更高
Gradient Boosting0.910.93950.95030.9143AI 更高
XGBoost0.910.94420.95390.9200AI 更高
Random Forest0.890.93640.94120.9057AI 更高
Extra Trees0.830.86980.92990.7971AI 更高
Logistic Regression未单独报告0.83100.89660.7562

注:原论文 Table 1 同时报告了 AD 类和 NO AD 类的 precision/recall/F1,此处展示的是 accuracy 维度的对比。原论文 Stacking Ensemble 同时达到了 0.97 precision(AD)和 0.94 recall(AD)。

描述性统计对比(关键变量,AI 复现)

变量非 AD 组AD 组p 值统计显著
MMSE16.27 ± 8.9311.99 ± 7.237.54×10⁻²⁹
Functional Assessment5.86 ± 2.763.65 ± 2.571.13×10⁻⁶⁸
Memory Complaints(比例)0.120.384.76×10⁻⁴⁸
ADL5.71 ± 2.833.66 ± 2.701.40×10⁻⁵⁶
Behavioral Problems(比例)0.100.276.37×10⁻²⁶
Age74.95 ± 8.9074.84 ± 9.150.799
BMI27.52 ± 7.1727.91 ± 7.300.222

差距原因分析

  1. Stacking Ensemble 差距(0.97 vs 0.946):原论文采用了三种特征选择方法(Featurewiz、Tree-based Feature Importance、Chi-square),可能筛除了噪声特征,提升了集成模型的表现。AI 复现使用了全部特征,未做特征筛选。
  2. 单模型反超:AI 的超参数自动调优在单个模型上可能更激进(如 Random Forest 使用了 200 棵树),导致单模型表现更优。但过度拟合单模型的风险也更高。
  3. 数据分割随机性:80:20 分层分割的随机种子不同,会导致测试集分布差异,影响准确率 1-3 个百分点。

AI 做到了什么

  • 完整复现了 6 种 ML 模型的训练和评估(含原论文未单独报告的 Logistic Regression)
  • SHAP 特征重要性 Top 5 与原论文完全一致
  • 生成了混淆矩阵、ROC 曲线、SHAP summary plot、3 个关键特征的 dependence plot
  • 完成 2149 条数据的描述性统计和组间差异检验
  • 撰写完整 LaTeX 论文(引言、方法、结果、讨论、结论)+ 参考文献
  • 225 个统计数字的交叉验证

AI 没做到什么

  • 特征选择实验:原论文对比了 Featurewiz、Tree-based 和 Chi-square 三种特征选择方法的效果,AI 未复现此对比
  • 过采样方法对比:原论文测试了 SMOTE 和 NearMiss 两种过采样策略对模型性能的影响,AI 未复现
  • Stacking Ensemble 最优性能:原论文的 97% 准确率需要精细的特征工程和超参数调优组合,AI 自动化流程达到 94.6%
  • 临床可解释性讨论:原论文包含了 Functional Assessment 和 ADL 在临床筛查中的具体应用讨论,AI 论文的讨论深度不足
  • BMI 分类和胆固醇比值等特征工程:原论文手动构建了 LDL/HDL 比值和 BMI WHO 分类特征

结论

本次复现在 48 分钟内验证了原论文的核心发现:阿尔茨海默病最重要的 5 个预测因子(Functional Assessment、ADL、Memory Complaints、MMSE、Behavioral Problems)的排序在独立复现中完全一致。这一高度一致性表明,这些认知和功能指标作为 AD 早期筛查标志物的可靠性经得起方法学差异的检验。

在模型性能方面,AI 在 4 个单模型上超过了原论文的报告准确率,但 Stacking Ensemble 的最优性能(94.6% vs 97%)仍需人工进行精细的特征选择和超参数优化才能达到。这也验证了一个重要判断:AI 擅长快速建立高质量的分析 baseline,而达到发表水平的最优性能需要研究者的领域知识和方法学创新。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究