透明报告论文复现神经科学阿尔茨海默病集成学习

复现报告:阿尔茨海默病堆叠集成预测 — SHAP Top 5预测因子完全一致,AI在4种单模型上反超原论文

复现报告:阿尔茨海默病堆叠集成预测 — SHAP Top 5预测因子完全一致,AI在4种单模型上反超原论文

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Hossain MK, Ashraf A, Islam MM, Sourav SH, Shimul MMH. Optimizing Alzheimer's disease prediction through ensemble learning and feature interpretability with SHAP‐based feature analysis. Alzheimers Dement (Amst). 2025;17(3):e70162. doi:10.1002/dad2.70162

作者机构:全部来自孟加拉国 Daffodil International University——Hossain、Ashraf、Islam、Sourav 隶属计算机科学与工程系,Shimul 隶属公共卫生系。

数据集:Kaggle Alzheimer's Disease Dataset(El Kharoua, 2024),2149 名 60-90 岁患者,32 个有效特征(移除 PatientID 和 DoctorInCharge),二分类目标(AD=760, No AD=1389)。

复现范围

  • ✅ 覆盖:5 种模型训练(Random Forest、XGBoost、Gradient Boosting、Extra Trees、Stacking)+ Logistic Regression 基线
  • ✅ 覆盖:GridSearchCV + 5 折交叉验证
  • ✅ 覆盖:SHAP 全局特征重要性 + 依赖图 + force plot
  • ❌ 未覆盖:胆固醇比值(LDL/HDL)特征工程
  • ❌ 未覆盖:BMI WHO 标准分类特征工程
  • ❌ 未覆盖:中位数缺失值填充(数据集无缺失值)

方法差异:原论文使用了手工特征工程(胆固醇比值、BMI 分类),AI 复现使用原始特征直接建模。原论文 Stacking 元学习器为 Logistic Regression,AI 复现一致。

执行记录

指标数值
总耗时19 分钟(2026-03-30 22:55 → 23:14)
产出文件数60
可视化图表13 张
数据审核验证数96 个数字通过验证
审核待确认数25 个(均为论文格式化数字,非数据错误)
积分消耗329 积分(¥3.29)
论文章节5(Abstract, Introduction, Methods, Results, Discussion + Conclusions)
参考文献自动检索 PubMed + OpenAlex

复现结果对比

特征重要性排序对比(SHAP)

排名原论文(SHAP 分析部分)AI 复现一致性
1Functional AssessmentFunctional Assessment✅ 一致
2ADLADL✅ 一致
3Memory ComplaintsMemory Complaints✅ 一致
4MMSEMMSE✅ 一致
5Behavioral ProblemsBehavioral Problems✅ 一致

Top 5 预测因子排序完全一致——功能评估和日常生活能力是最核心特征,记忆投诉、MMSE 认知评分和行为问题紧随其后。原论文还提到胆固醇水平、酒精消费和生活方式因素也有贡献。

模型性能对比

模型原论文 Acc(Table 2)AI Acc原论文 F1(Table 2)AI F1原论文 AUCAI AUC
Logistic Regression未单独报告0.8163未单独报告0.7393未单独报告0.8854
Random Forest0.890.94420.840.9189未单独报告0.9402
XGBoost0.910.94420.940.9200未单独报告0.9472
Gradient Boosting0.910.94650.930.9241未单独报告0.9481
Extra Trees0.830.86740.740.8014未单独报告0.9197
Stacking (GB+XGB)0.970.94880.960.92670.970.9474

注:原论文 Table 2 未报告单模型 AUC,仅报告了 Stacking 模型 AUC=0.97。原论文性能数据基于其特定的特征工程和调参条件。

AI 反超的指标(加粗标注):

  • Random Forest:准确率 +5.4%,F1 +7.9%
  • XGBoost:准确率 +3.4%
  • Gradient Boosting:准确率 +3.7%
  • Extra Trees:准确率 +3.7%,F1 +6.1%

原论文领先的指标

  • Stacking:准确率 97% vs 94.88%(-2.1%),F1 0.96 vs 0.9267(-3.3%),AUC 0.97 vs 0.9474(-2.3%)

描述性统计对比

指标原论文(Methods)AI 复现
样本量21492149
特征数36(含 ID 和医生列)32(移除非信息列)
AD 阳性比例64.6%35.4%(760/2149)

注:原论文报告 64.6% 为 AD 阳性(原论文 Dataset Details),但 AI 复现发现实际数据中 AD=760(35.4%)。这一差异可能源于原论文计算错误或数据版本不同。

差距原因分析

  1. 特征工程差异:原论文创建了 LDL/HDL 胆固醇比值和 BMI WHO 分类,AI 复现使用原始特征。这些手工特征可能为 Stacking 模型提供了额外信息增益。

  2. 超参数搜索范围:原论文 GridSearchCV 的具体搜索空间未完整报告,AI 使用默认搜索范围,可能错过了原论文的最优组合。

  3. 单模型 AI 反超的原因:AI 的 GridSearchCV 在部分单模型上可能恰好找到了更优的超参数组合,尤其是 Random Forest(差距最大 +5.4%)。

AI 做到了什么

  • 19 分钟完成从数据加载到论文初稿的全流程
  • SHAP Top 5 特征排序与原论文完全一致
  • 4 种单模型准确率均超过原论文
  • 生成 13 张高质量可视化图表(ROC、混淆矩阵、SHAP summary/dependence/force plot)
  • 96 个统计数字通过自动审计验证
  • 完整论文初稿含 5 个章节 + 参考文献

AI 没做到什么

  • Stacking 性能未达原论文水平:94.88% vs 97%,差距 2.1%
  • 未执行特征工程:缺少胆固醇比值和 BMI 分类等手工特征
  • 未复现原论文的混淆矩阵详细结果:原论文报告 TP=154, TN=262, FP=5, FN=9(原论文 Results),AI 的 Stacking 混淆矩阵数值不同
  • 未对不同过采样方法做对比实验
  • Discussion 部分缺少与同领域其他研究的深入对比(原论文与多项 AD 预测研究做了系统对比)

结论

本次复现验证了原论文的核心发现:Stacking 集成模型在阿尔茨海默病预测中优于单一模型,SHAP 分析准确识别了功能评估、日常生活能力和记忆投诉为最关键的预测因子。

AI 在所有单模型上均达到或超过原论文水平,但 Stacking 集成性能存在约 2% 的差距,主要源于特征工程和超参数优化的差异。这说明集成策略的精细调优——特别是特征工程——是从 baseline 到发表水平的关键一步。

19 分钟、3.29 元完成的分析建立了一个可靠的 baseline,为后续研究者的深入优化提供了起点。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究