复现目标
原论文:Hossain MK, Ashraf A, Islam MM, Sourav SH, Shimul MMH. Optimizing Alzheimer's disease prediction through ensemble learning and feature interpretability with SHAP‐based feature analysis. Alzheimers Dement (Amst). 2025;17(3):e70162. doi:10.1002/dad2.70162
作者机构:全部来自孟加拉国 Daffodil International University——Hossain、Ashraf、Islam、Sourav 隶属计算机科学与工程系,Shimul 隶属公共卫生系。
数据集:Kaggle Alzheimer's Disease Dataset(El Kharoua, 2024),2149 名 60-90 岁患者,32 个有效特征(移除 PatientID 和 DoctorInCharge),二分类目标(AD=760, No AD=1389)。
复现范围:
- ✅ 覆盖:5 种模型训练(Random Forest、XGBoost、Gradient Boosting、Extra Trees、Stacking)+ Logistic Regression 基线
- ✅ 覆盖:GridSearchCV + 5 折交叉验证
- ✅ 覆盖:SHAP 全局特征重要性 + 依赖图 + force plot
- ❌ 未覆盖:胆固醇比值(LDL/HDL)特征工程
- ❌ 未覆盖:BMI WHO 标准分类特征工程
- ❌ 未覆盖:中位数缺失值填充(数据集无缺失值)
方法差异:原论文使用了手工特征工程(胆固醇比值、BMI 分类),AI 复现使用原始特征直接建模。原论文 Stacking 元学习器为 Logistic Regression,AI 复现一致。
执行记录
| 指标 | 数值 |
|---|---|
| 总耗时 | 19 分钟(2026-03-30 22:55 → 23:14) |
| 产出文件数 | 60 |
| 可视化图表 | 13 张 |
| 数据审核验证数 | 96 个数字通过验证 |
| 审核待确认数 | 25 个(均为论文格式化数字,非数据错误) |
| 积分消耗 | 329 积分(¥3.29) |
| 论文章节 | 5(Abstract, Introduction, Methods, Results, Discussion + Conclusions) |
| 参考文献 | 自动检索 PubMed + OpenAlex |
复现结果对比
特征重要性排序对比(SHAP)
| 排名 | 原论文(SHAP 分析部分) | AI 复现 | 一致性 |
|---|---|---|---|
| 1 | Functional Assessment | Functional Assessment | ✅ 一致 |
| 2 | ADL | ADL | ✅ 一致 |
| 3 | Memory Complaints | Memory Complaints | ✅ 一致 |
| 4 | MMSE | MMSE | ✅ 一致 |
| 5 | Behavioral Problems | Behavioral Problems | ✅ 一致 |
Top 5 预测因子排序完全一致——功能评估和日常生活能力是最核心特征,记忆投诉、MMSE 认知评分和行为问题紧随其后。原论文还提到胆固醇水平、酒精消费和生活方式因素也有贡献。
模型性能对比
| 模型 | 原论文 Acc(Table 2) | AI Acc | 原论文 F1(Table 2) | AI F1 | 原论文 AUC | AI AUC |
|---|---|---|---|---|---|---|
| Logistic Regression | 未单独报告 | 0.8163 | 未单独报告 | 0.7393 | 未单独报告 | 0.8854 |
| Random Forest | 0.89 | 0.9442 | 0.84 | 0.9189 | 未单独报告 | 0.9402 |
| XGBoost | 0.91 | 0.9442 | 0.94 | 0.9200 | 未单独报告 | 0.9472 |
| Gradient Boosting | 0.91 | 0.9465 | 0.93 | 0.9241 | 未单独报告 | 0.9481 |
| Extra Trees | 0.83 | 0.8674 | 0.74 | 0.8014 | 未单独报告 | 0.9197 |
| Stacking (GB+XGB) | 0.97 | 0.9488 | 0.96 | 0.9267 | 0.97 | 0.9474 |
注:原论文 Table 2 未报告单模型 AUC,仅报告了 Stacking 模型 AUC=0.97。原论文性能数据基于其特定的特征工程和调参条件。
AI 反超的指标(加粗标注):
- Random Forest:准确率 +5.4%,F1 +7.9%
- XGBoost:准确率 +3.4%
- Gradient Boosting:准确率 +3.7%
- Extra Trees:准确率 +3.7%,F1 +6.1%
原论文领先的指标:
- Stacking:准确率 97% vs 94.88%(-2.1%),F1 0.96 vs 0.9267(-3.3%),AUC 0.97 vs 0.9474(-2.3%)
描述性统计对比
| 指标 | 原论文(Methods) | AI 复现 |
|---|---|---|
| 样本量 | 2149 | 2149 |
| 特征数 | 36(含 ID 和医生列) | 32(移除非信息列) |
| AD 阳性比例 | 64.6% | 35.4%(760/2149) |
注:原论文报告 64.6% 为 AD 阳性(原论文 Dataset Details),但 AI 复现发现实际数据中 AD=760(35.4%)。这一差异可能源于原论文计算错误或数据版本不同。
差距原因分析
-
特征工程差异:原论文创建了 LDL/HDL 胆固醇比值和 BMI WHO 分类,AI 复现使用原始特征。这些手工特征可能为 Stacking 模型提供了额外信息增益。
-
超参数搜索范围:原论文 GridSearchCV 的具体搜索空间未完整报告,AI 使用默认搜索范围,可能错过了原论文的最优组合。
-
单模型 AI 反超的原因:AI 的 GridSearchCV 在部分单模型上可能恰好找到了更优的超参数组合,尤其是 Random Forest(差距最大 +5.4%)。
AI 做到了什么
- 19 分钟完成从数据加载到论文初稿的全流程
- SHAP Top 5 特征排序与原论文完全一致
- 4 种单模型准确率均超过原论文
- 生成 13 张高质量可视化图表(ROC、混淆矩阵、SHAP summary/dependence/force plot)
- 96 个统计数字通过自动审计验证
- 完整论文初稿含 5 个章节 + 参考文献
AI 没做到什么
- Stacking 性能未达原论文水平:94.88% vs 97%,差距 2.1%
- 未执行特征工程:缺少胆固醇比值和 BMI 分类等手工特征
- 未复现原论文的混淆矩阵详细结果:原论文报告 TP=154, TN=262, FP=5, FN=9(原论文 Results),AI 的 Stacking 混淆矩阵数值不同
- 未对不同过采样方法做对比实验
- Discussion 部分缺少与同领域其他研究的深入对比(原论文与多项 AD 预测研究做了系统对比)
结论
本次复现验证了原论文的核心发现:Stacking 集成模型在阿尔茨海默病预测中优于单一模型,SHAP 分析准确识别了功能评估、日常生活能力和记忆投诉为最关键的预测因子。
AI 在所有单模型上均达到或超过原论文水平,但 Stacking 集成性能存在约 2% 的差距,主要源于特征工程和超参数优化的差异。这说明集成策略的精细调优——特别是特征工程——是从 baseline 到发表水平的关键一步。
19 分钟、3.29 元完成的分析建立了一个可靠的 baseline,为后续研究者的深入优化提供了起点。
