透明报告论文复现心脏病预测集成学习SHAP

复现报告:Ganie 2025 心脏病集成学习预测 — Stacking模型AUC达0.977,AI在准确率和AUC上均超越原论文D1结果

复现报告:Ganie 2025 心脏病集成学习预测 — Stacking模型AUC达0.977,AI在准确率和AUC上均超越原论文D1结果

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Ganie, S.M., Pramanik, P.K.D. & Zhao, Z. (2025). Ensemble learning with explainable AI for improved heart disease prediction based on multiple datasets. Scientific Reports. DOI: 10.1038/s41598-025-97547-6

作者机构

  • Shahid Mohammad Ganie — AI Research Centre, Woxsen University, Hyderabad, India
  • Pijush Kanti Dutta Pramanik — School of Computer Science and Engineering, Galgotias University, India
  • Zhongming Zhao — Center for Precision Health, UT Health Science Center at Houston, USA

数据集:Heart Disease Dataset Comprehensive (HDDC),1190条记录,11个临床特征+1个目标变量。合并自Cleveland (303)、Hungarian (294)、Switzerland (123)、Long Beach VA (200) 和 Statlog (270) 五个数据库。来源:Kaggle,CC0许可。

复现范围

  • ✅ 覆盖:多模型分类(10种基础模型)、Stacking和Voting集成、10折交叉验证、SHAP可解释性分析
  • ❌ 未覆盖:D2数据集 (UCI, 1025条, 14特征) 验证、Friedman Aligned Ranks统计检验、原论文的全部15种基础模型(MLP、LDA、NB、SGD、CatBoost未包含在AI复现中)

方法差异:原论文选择6种最优模型(LR, ET, RF, CB, XGB, LGBM)作为Stacking基学习器;AI复现也采用Stacking但基学习器组合可能不完全一致。

执行记录

指标数值
总耗时35分钟(2073秒)
产出文件数49个
分析代码3个Python脚本
可视化图表8张
训练模型数12种(10个基础 + 2个集成)
积分消耗901.52(¥9.02)
数据集1190行 × 12列

复现结果对比

描述性统计

变量全样本 (n=1190)非心脏病组 (n=561)心脏病组 (n=629)
年龄53.72±9.3651.12±9.4956.03±8.61
性别0.76±0.420.62±0.480.89±0.31
胸痛类型3.23±0.942.78±0.913.64±0.75
静息血压132.15±18.37129.79±16.49134.26±19.67
胆固醇210.36±101.42231.66±70.02191.37±119.73
空腹血糖0.21±0.410.12±0.320.30±0.46
静息心电图0.70±0.870.63±0.870.76±0.87
最大心率139.73±25.52150.89±22.70129.78±23.72
运动心绞痛0.39±0.490.14±0.350.61±0.49
Oldpeak0.92±1.090.46±0.731.33±1.18
ST斜率1.62±0.611.30±0.541.92±0.52

特征重要性排序对比(SHAP)

排序原论文 D1 Stacking(SHAP分析)AI复现一致性
#1ST斜率 (STS)ST斜率✅ 一致
#2胸痛类型 (CP)胸痛类型✅ 一致
#3胆固醇 (CL)运动心绞痛⚠️ 不同
#4性别 (GD)性别✅ 一致
最低空腹血糖 (FBS)空腹血糖✅ 一致

5项中4项一致(80%),核心Top 2完全一致。#3位置不同(原论文为胆固醇,AI为运动心绞痛),但两者在AI的排序中都属于高影响因子。

SHAP蜂群图

SHAP特征重要性汇总

模型性能对比

模型原论文D1准确率AI准确率原论文D1 AUCAI AUCAI F1
Stacking91%(原论文结果)92.02%0.920.97710.9237
Voting91%(原论文结果)92.02%0.910.97120.9237
XGBoost未单独报告93.70%未单独报告0.97170.9398
Random Forest未单独报告92.86%未单独报告0.97120.9328
Extra Trees未单独报告90.76%未单独报告0.97820.9106
SVM未单独报告88.24%未单独报告0.93520.8923
Gradient Boosting未单独报告90.34%未单独报告0.94960.9091
LightGBM未单独报告89.92%未单独报告0.96120.9055
Decision Tree未单独报告87.82%未单独报告0.88000.8807
AdaBoost未单独报告84.45%未单独报告0.92550.8560
Logistic Regression未单独报告84.03%未单独报告0.90410.8504
KNN未单独报告83.61%未单独报告0.91870.8494

注:原论文报告了D1上Stacking和Voting的整体准确率和AUC,但未单独报告D1上各基础模型的具体数值。AI复现在Stacking和Voting两项可对比指标上均超越原论文D1结果。

模型性能对比图

ROC曲线

差距原因分析

  1. AI反超的可能原因:AI的Stacking和Voting准确率(92.02%)和AUC(0.977/0.971)略超原论文(91%/0.92),可能由于随机种子差异、基学习器组合差异或超参数调优策略不同
  2. 方法覆盖差异:原论文测试15种基础模型,AI测试10种(未包含MLP、LDA、NB、SGD、CatBoost)
  3. 数据集覆盖差异:原论文在D1和D2两个数据集上验证,AI仅使用D1

AI做到了什么

  • 训练12种分类模型(含Stacking和Voting集成),10折交叉验证
  • Stacking准确率92.02%,超过原论文D1的91%
  • XGBoost达到最高准确率93.70%
  • SHAP分析的Top 2特征(ST斜率、胸痛类型)与原论文完全一致
  • 生成8张可视化图表(混淆矩阵、ROC曲线、SHAP蜂群图等)
  • 完成文献检索和学术论文初稿
  • 全流程35分钟,花费9.02元

AI没做到什么

  • 未在D2数据集上验证:原论文在两个独立数据集上交叉验证,AI只用了D1
  • 未测试全部15种基础模型:缺少MLP、LDA、Naive Bayes、SGD、CatBoost
  • 未进行Friedman统计检验:原论文用Friedman Aligned Ranks检验比较Stacking和Voting的差异(p=0.2059),并做了Post-hoc Holm检验
  • SHAP分析深度不足:原论文分别对Stacking和Voting做了SHAP分析并比较差异,AI只做了整体SHAP
  • 未分析执行时间对比:原论文比较了Stacking和Voting的训练时间差异
  • 缺乏消融实验:原论文测试了不同基学习器组合对集成模型的影响

结论

AI在35分钟内完成了原论文核心分析的大部分执行工作,在可对比的两项指标(Stacking准确率和AUC)上均略超原论文D1结果。SHAP特征重要性的Top 2完全一致,验证了ST斜率和胸痛类型作为心脏病核心预测因子的稳健性。

但原论文的学术深度——双数据集验证、15种模型全覆盖、Friedman统计检验、执行时间分析——体现了研究者在实验设计和方法学严谨性上的不可替代价值。AI的35分钟可以快速建立高质量的baseline,将研究者的精力释放给更需要创造力的工作。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究