复现目标
原论文:Shah P, Shukla M, Dholakia NH, Gupta H. Predicting cardiovascular risk with hybrid ensemble learning and explainable AI. Scientific Reports. 2025;15. doi:10.1038/s41598-025-01650-7
作者机构:
- Pooja Shah — Pandit Deendayal Energy University, Gandhinagar, India
- Madhu Shukla — Marwadi University, Rajkot, India
- Neel H Dholakia — Marwadi University, Rajkot, India
- Himanshu Gupta — Manipal Institute of Technology, Karnataka, India
数据集:Cardiovascular Disease Dataset(70,000 条临床记录,12 个特征,Kaggle/IEEE Dataport)
复现范围:
| 覆盖 | 未覆盖 |
|---|---|
| 6 种 ML 模型训练(LR、RF、GB、XGB、LGBM、Stacking) | CatBoost、SVM、Neural Network 模型 |
| SHAP 特征重要性分析 | SMOTE + 随机下采样类别平衡 |
| 特征工程(BMI、脉压差、胆固醇-血糖交互) | Hybrid Attention Model |
| 5 折交叉验证 | PCA/t-SNE 投影的高风险群体聚类 |
| 混淆矩阵、ROC 曲线等完整评估 | 原论文的 Min-Max 归一化(AI 用 StandardScaler) |
关键方法差异:
- 类别平衡:原论文使用 SMOTE + 随机下采样 → AI 未做过采样处理
- 元学习器:原论文 Stacking 用 XGBoost → AI 用 Logistic Regression
- 标准化:原论文 Min-Max [0,1] → AI StandardScaler
执行记录
| 指标 | 数值 |
|---|---|
| 精确耗时 | 50 分钟(11:11:39 → 12:01:25) |
| 产出文件数 | 42 |
| 积分消耗 | 693 积分(¥6.93) |
| 数据审核验证数 | 110 个数字通过验证 |
| 待人工判定数 | 52 个候选数(多为样本量、年份等结构性数字) |
| 文献引用数 | 论文参考文献 56KB |
| 图表数 | 9 张 |
复现结果对比
特征重要性排序对比
| 排名 | 原论文(SHAP, Figures 3-5) | AI 复现(SHAP) | 一致性 |
|---|---|---|---|
| 1 | 收缩压 (ap_hi) | 收缩压 (ap_hi) | ✅ 一致 |
| 2 | 胆固醇-血糖交互 | 胆固醇-血糖交互 | ✅ 一致 |
| 3 | BMI | BMI | ✅ 一致 |
| 4 | 舒张压 (ap_lo) | 舒张压 (ap_lo) | ✅ 一致 |
| 5 | 年龄 (age) | 年龄 (age) | ✅ 一致 |
| 低重要性 | 吸烟、饮酒预测力弱 | 吸烟 (r=-0.048)、饮酒 (r=-0.029) 与心血管病弱负相关 | ✅ 一致 |
Top 5 特征排序完全一致,核心结论高度复现。
模型性能对比
| 模型 | 原论文准确率(Table 5) | AI 准确率 | 原论文 AUC(Table 5) | AI AUC | 备注 |
|---|---|---|---|---|---|
| Logistic Regression | 76.2% | 72.45% | 0.75 | 0.7883 | AI AUC 反超 +0.038 |
| Random Forest | 73.2% | 70.90% | 0.71 | 0.7658 | AI AUC 反超 +0.056 |
| Gradient Boosting | 77.5% | 73.33% | 0.80 | 0.7997 | AUC 几乎相同 |
| XGBoost | 79.0% | 72.79% | 0.80 | 0.7929 | 准确率差距 6.2pp |
| LightGBM | 79.5% | 73.17% | 0.81 | 0.7985 | 准确率差距 6.3pp |
| CatBoost | 78.5% | 未训练 | 0.80 | — | AI 未覆盖 |
| SVM | 78.2% | 未训练 | 0.79 | — | AI 未覆盖 |
| Neural Network | 79.0% | 未训练 | 0.80 | — | AI 未覆盖 |
| Stacking Ensemble | 82.0% | 73.46% | 0.82 | 0.7997 | 准确率差距 8.5pp |
描述性统计对比
| 变量 | 无心血管病组 | 心血管病组 | p 值 |
|---|---|---|---|
| 年龄(岁) | 51.22 ± 6.78 | 54.47 ± 6.35 | <0.001 |
| 收缩压 (mmHg) | 119.56 ± 12.63 | 133.81 ± 17.39 | <0.001 |
| 舒张压 (mmHg) | 78.17 ± 8.29 | 84.66 ± 9.89 | <0.001 |
| 体重 (kg) | 71.57 ± 13.29 | 76.72 ± 14.88 | <0.001 |
| BMI | 26.54 ± 5.57 | 28.53 ± 6.35 | <0.001 |
| 脉压差 (mmHg) | 41.39 ± 9.34 | 49.16 ± 13.42 | <0.001 |
| 胆固醇-血糖交互 | 1.55 ± 1.53 | 2.15 ± 2.13 | <0.001 |
心血管病组在收缩压(+14.25 mmHg)、BMI(+1.99)、脉压差(+7.77 mmHg)上显著高于健康组,与原论文结论一致。
差距原因分析
- 类别平衡是最大差异:原论文明确报告 SMOTE 将 AUC-ROC 从 0.75 提升到 0.82(原论文 Section: Results),AI 未做 SMOTE 处理,这直接解释了准确率差距
- 标准化方法:原论文 Min-Max 归一化 vs AI StandardScaler,对线性模型影响较大
- 模型数量:原论文 9 种模型(含 3 种 AI 未覆盖),Stacking 基学习器更丰富
- AUC 反超现象:AI 在 LR(+0.038)和 RF(+0.056)上的 AUC 高于原论文,可能原因:(a) 未做 SMOTE 使概率校准更接近真实分布;(b) 原论文 SMOTE 可能导致过拟合影响概率排序
AI 做到了什么
- ✅ 70,000 条数据完整清洗与预处理(异常值移除、特征工程)
- ✅ 6 种模型训练 + Stacking 集成,5 折交叉验证
- ✅ SHAP 可解释性分析,Top 5 特征排序与原论文完全一致
- ✅ 9 张可视化图表(箱线图、混淆矩阵、热力图、ROC、SHAP beeswarm、t-SNE)
- ✅ 完整 LaTeX 论文 + DOCX + PDF(含引用格式)
- ✅ 数据审核:110 个数字通过自动验证
- ✅ Logistic Regression 和 Random Forest 的 AUC 反超原论文
AI 没做到什么
- ❌ 准确率低于原论文 4-9 个百分点:最大差距在 Stacking(73.46% vs 82.0%),根本原因是未做 SMOTE 类别平衡
- ❌ 未训练 3 种模型:CatBoost、SVM、Neural Network 未覆盖
- ❌ 未实现 Hybrid Attention Model:原论文的定制注意力机制需要专门的架构设计
- ❌ 未做 SMOTE 过采样:这是原论文性能提升的关键步骤,AI 默认未启用
- ❌ 元学习器不同:原论文用 XGBoost 做元学习器,AI 默认用 Logistic Regression
- ❌ 未做 PCA/t-SNE 的高风险群体聚类分析:原论文的 Radar chart 分析未覆盖
结论
这次复现在核心结论层面高度一致——SHAP 特征重要性 Top 5 排序完全相同,收缩压、胆固醇-血糖交互、BMI 是最重要的心血管风险预测因子。但在模型性能上存在明显差距,主要因为未做 SMOTE 类别平衡处理。
有意思的是,AI 在 Logistic Regression 和 Random Forest 上的 AUC 反而高于原论文,这可能表明不做 SMOTE 的概率校准在某些场景下更好。这类发现正是自动化复现的价值——快速验证方法学选择对结果的影响。
50 分钟,6.93 元,42 个文件。研究员负责创新,AI 负责执行。
