复现报告：Shah et al. 心血管风险预测 — LR和RF的AUC反超原论文，收缩压Top 1预测因子完全一致

复现目标

原论文：Shah P, Shukla M, Dholakia NH, Gupta H. Predicting cardiovascular risk with hybrid ensemble learning and explainable AI. Scientific Reports. 2025;15. doi:10.1038/s41598-025-01650-7

作者机构：

Pooja Shah — Pandit Deendayal Energy University, Gandhinagar, India
Madhu Shukla — Marwadi University, Rajkot, India
Neel H Dholakia — Marwadi University, Rajkot, India
Himanshu Gupta — Manipal Institute of Technology, Karnataka, India

数据集：Cardiovascular Disease Dataset（70,000 条临床记录，12 个特征，Kaggle/IEEE Dataport）

复现范围：

覆盖	未覆盖
6 种 ML 模型训练（LR、RF、GB、XGB、LGBM、Stacking）	CatBoost、SVM、Neural Network 模型
SHAP 特征重要性分析	SMOTE + 随机下采样类别平衡
特征工程（BMI、脉压差、胆固醇-血糖交互）	Hybrid Attention Model
5 折交叉验证	PCA/t-SNE 投影的高风险群体聚类
混淆矩阵、ROC 曲线等完整评估	原论文的 Min-Max 归一化（AI 用 StandardScaler）

关键方法差异：

类别平衡：原论文使用 SMOTE + 随机下采样 → AI 未做过采样处理
元学习器：原论文 Stacking 用 XGBoost → AI 用 Logistic Regression
标准化：原论文 Min-Max [0,1] → AI StandardScaler

执行记录

指标	数值
精确耗时	50 分钟（11:11:39 → 12:01:25）
产出文件数	42
积分消耗	693 积分（¥6.93）
数据审核验证数	110 个数字通过验证
待人工判定数	52 个候选数（多为样本量、年份等结构性数字）
文献引用数	论文参考文献 56KB
图表数	9 张

复现结果对比

特征重要性排序对比

排名	原论文（SHAP, Figures 3-5）	AI 复现（SHAP）	一致性
1	收缩压 (ap_hi)	收缩压 (ap_hi)	✅ 一致
2	胆固醇-血糖交互	胆固醇-血糖交互	✅ 一致
3	BMI	BMI	✅ 一致
4	舒张压 (ap_lo)	舒张压 (ap_lo)	✅ 一致
5	年龄 (age)	年龄 (age)	✅ 一致
低重要性	吸烟、饮酒预测力弱	吸烟 (r=-0.048)、饮酒 (r=-0.029) 与心血管病弱负相关	✅ 一致

Top 5 特征排序完全一致，核心结论高度复现。

模型性能对比

模型	原论文准确率（Table 5）	AI 准确率	原论文 AUC（Table 5）	AI AUC	备注
Logistic Regression	76.2%	72.45%	0.75	0.7883	AI AUC 反超 +0.038
Random Forest	73.2%	70.90%	0.71	0.7658	AI AUC 反超 +0.056
Gradient Boosting	77.5%	73.33%	0.80	0.7997	AUC 几乎相同
XGBoost	79.0%	72.79%	0.80	0.7929	准确率差距 6.2pp
LightGBM	79.5%	73.17%	0.81	0.7985	准确率差距 6.3pp
CatBoost	78.5%	未训练	0.80	—	AI 未覆盖
SVM	78.2%	未训练	0.79	—	AI 未覆盖
Neural Network	79.0%	未训练	0.80	—	AI 未覆盖
Stacking Ensemble	82.0%	73.46%	0.82	0.7997	准确率差距 8.5pp

描述性统计对比

变量	无心血管病组	心血管病组	p 值
年龄（岁）	51.22 ± 6.78	54.47 ± 6.35	<0.001
收缩压 (mmHg)	119.56 ± 12.63	133.81 ± 17.39	<0.001
舒张压 (mmHg)	78.17 ± 8.29	84.66 ± 9.89	<0.001
体重 (kg)	71.57 ± 13.29	76.72 ± 14.88	<0.001
BMI	26.54 ± 5.57	28.53 ± 6.35	<0.001
脉压差 (mmHg)	41.39 ± 9.34	49.16 ± 13.42	<0.001
胆固醇-血糖交互	1.55 ± 1.53	2.15 ± 2.13	<0.001

心血管病组在收缩压（+14.25 mmHg）、BMI（+1.99）、脉压差（+7.77 mmHg）上显著高于健康组，与原论文结论一致。

差距原因分析

类别平衡是最大差异：原论文明确报告 SMOTE 将 AUC-ROC 从 0.75 提升到 0.82（原论文 Section: Results），AI 未做 SMOTE 处理，这直接解释了准确率差距
标准化方法：原论文 Min-Max 归一化 vs AI StandardScaler，对线性模型影响较大
模型数量：原论文 9 种模型（含 3 种 AI 未覆盖），Stacking 基学习器更丰富
AUC 反超现象：AI 在 LR（+0.038）和 RF（+0.056）上的 AUC 高于原论文，可能原因：(a) 未做 SMOTE 使概率校准更接近真实分布；(b) 原论文 SMOTE 可能导致过拟合影响概率排序

AI 做到了什么

✅ 70,000 条数据完整清洗与预处理（异常值移除、特征工程）
✅ 6 种模型训练 + Stacking 集成，5 折交叉验证
✅ SHAP 可解释性分析，Top 5 特征排序与原论文完全一致
✅ 9 张可视化图表（箱线图、混淆矩阵、热力图、ROC、SHAP beeswarm、t-SNE）
✅ 完整 LaTeX 论文 + DOCX + PDF（含引用格式）
✅ 数据审核：110 个数字通过自动验证
✅ Logistic Regression 和 Random Forest 的 AUC 反超原论文

AI 没做到什么

❌ 准确率低于原论文 4-9 个百分点：最大差距在 Stacking（73.46% vs 82.0%），根本原因是未做 SMOTE 类别平衡
❌ 未训练 3 种模型：CatBoost、SVM、Neural Network 未覆盖
❌ 未实现 Hybrid Attention Model：原论文的定制注意力机制需要专门的架构设计
❌ 未做 SMOTE 过采样：这是原论文性能提升的关键步骤，AI 默认未启用
❌ 元学习器不同：原论文用 XGBoost 做元学习器，AI 默认用 Logistic Regression
❌ 未做 PCA/t-SNE 的高风险群体聚类分析：原论文的 Radar chart 分析未覆盖

结论

这次复现在核心结论层面高度一致——SHAP 特征重要性 Top 5 排序完全相同，收缩压、胆固醇-血糖交互、BMI 是最重要的心血管风险预测因子。但在模型性能上存在明显差距，主要因为未做 SMOTE 类别平衡处理。

有意思的是，AI 在 Logistic Regression 和 Random Forest 上的 AUC 反而高于原论文，这可能表明不做 SMOTE 的概率校准在某些场景下更好。这类发现正是自动化复现的价值——快速验证方法学选择对结果的影响。

50 分钟，6.93 元，42 个文件。研究员负责创新，AI 负责执行。

查看完整AI分析过程 →