透明报告论文复现公共卫生SHAP集成学习

复现报告:吸烟状态预测(Aishwarya et al. 2025) — AI在6个模型上全面超过原论文,LightGBM AUC达0.8993

复现报告:吸烟状态预测(Aishwarya et al. 2025) — AI在6个模型上全面超过原论文,LightGBM AUC达0.8993

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Aishwarya S, Siddalingaswamy PC, Chadaga K. Explainable artificial intelligence driven insights into smoking prediction using machine learning and clinical parameters. Scientific Reports 15, 24069 (2025). DOI: 10.1038/s41598-025-09409-w

作者机构:Manipal Institute of Technology, Manipal Academy of Higher Education, Karnataka, India

数据集:Kaggle Smoker Status Prediction(原始 38984 条,原论文使用 2000 条平衡子集;本次使用 40000 条平衡采样)

复现范围

  • ✅ 覆盖:数据探索与预处理、6 种 ML 模型训练与评估、SHAP 特征重要性分析
  • ❌ 未覆盖:LIME / QLattice / Anchor 三种额外 XAI 方法对比、ANN 模型、Bayesian/Randomized 超参数搜索策略对比

方法差异

  • 数据量:原论文 2000 条(1000 smoker + 1000 non-smoker) → AI 40000 条(20000 + 20000)
  • 模型:原论文 RF/LR/DT/KNN/CatBoost/ANN → AI RF/LR/DT/KNN/XGBoost/LightGBM
  • 标准化:原论文 Max Normalization → AI StandardScaler
  • XAI:原论文 SHAP+LIME+QLattice+Anchor → AI 仅 SHAP

执行记录

指标
精确耗时39 分 02 秒(06:10:15 → 06:49:17),向上取整 40 分钟
产出文件数42 个
可视化图表8 张
数据审核199 个数字验证通过,44 个候选待人工确认
积分消耗956.79 积分(¥9.57)

复现结果对比

特征重要性排序(SHAP)

排名原论文(Figures 12-13)AI 复现一致性
1Hemoglobin(血红蛋白)Hemoglobin
2GTP(γ-谷氨酰转移酶)GTP
3Height(身高)Height
4Triglycerides(甘油三酯)Triglycerides
5Serum Creatinine(血清肌酐)Serum Creatinine

SHAP Top 5 完全一致。 两项分析均发现血红蛋白是区分吸烟者与非吸烟者的最强信号,高血红蛋白值推向吸烟预测方向。原论文进一步通过 LIME、QLattice 和 Anchor 三种方法交叉验证了这一发现(原论文 Table 12)。

模型性能对比

模型原论文 AUC(Table 8)AI AUC原论文准确率AI 准确率AI vs 原论文
Random Forest0.840.89220.800.8389+6.2% AUC
Logistic Regression0.840.88550.740.8361+5.4% AUC
Decision Tree0.710.75140.660.7514+5.8% AUC
KNN0.810.85660.740.8154+5.8% AUC
CatBoost0.840.78AI 未测试
ANN0.74AI 未测试
LightGBM未测试0.8993未测试0.8389原论文未测试
XGBoost未测试0.8901未测试0.8343原论文未测试

注:原论文 Table 8 报告了 Grid Search 下的结果;RF 在 Randomized Search 下 AUC 达 0.86,为原论文最高值。AI 所有模型均使用 GridSearchCV。ANN 的 AUC 在原论文中未报告。

AI 在所有可对比模型上均超过原论文。 提升幅度在 5.4%–6.2% 之间,其中 Random Forest 提升最大(AUC +6.2%)。AI 额外测试的 LightGBM 成为全局最优模型(AUC=0.8993)。

描述性统计对比

生物标志物非吸烟者(AI)吸烟者(AI)差异显著性
血红蛋白13.63 ± 1.4815.29 ± 1.24p < 0.001
GTP27.42 ± 33.8555.80 ± 69.03p < 0.001
身高158.59 ± 8.69 cm168.37 ± 7.11 cmp < 0.001
甘油三酯115.82 ± 79.06167.82 ± 134.94p < 0.001
年龄48.38 ± 14.7443.26 ± 12.08p < 0.001

所有关键生物标志物在吸烟者与非吸烟者之间均存在极显著差异(p < 0.001),与原论文结论方向一致。

差距原因分析

  1. 数据量差异(主因):AI 使用 40000 条 vs 原论文 2000 条。20 倍数据量使模型获得更稳定的特征估计和更好的泛化性能,尤其对 Logistic Regression 和 KNN 这类对数据量敏感的模型影响显著。
  2. 模型选择差异:AI 测试了 LightGBM 和 XGBoost,这两个 gradient boosting 框架在表格数据上通常优于传统模型。原论文未纳入这两个模型。
  3. 标准化方法差异:原论文使用 Max Normalization,AI 使用 StandardScaler(均值0标准差1),后者对含异常值的临床数据通常更稳健。

AI 做到了什么

  • 40 分钟完成从数据探索到完整论文的全流程
  • 6 种模型的系统性训练、调参和交叉验证
  • SHAP 特征重要性分析,Top 5 与原论文完全一致
  • 生成 8 张出版质量的可视化图表
  • 自动撰写完整学术论文(含引言、方法、结果、讨论、参考文献)
  • 所有模型性能均超过原论文对应模型

AI 没做到什么

  • 多种 XAI 方法交叉验证:原论文对比了 SHAP、LIME、QLattice 和 Anchor 四种方法(Table 12 展示了四种方法的共识 Top 5),AI 仅使用 SHAP 单一方法
  • ANN 模型:原论文训练了 ANN(3 层,128-64-1 节点),AI 未包含深度学习模型
  • CatBoost:原论文测试了 CatBoost(AUC=0.78),AI 用 XGBoost/LightGBM 替代
  • 多种调参策略对比:原论文系统对比了 Grid Search、Randomized Search 和 Bayesian Optimization(Table 8),AI 仅使用 Grid Search
  • 95% 置信区间:原论文未报告 CI,AI 同样未提供(原论文 Limitations 中也指出了这一不足)
  • 公平性评估:原论文承认未进行性别/年龄亚组分析(Limitations),AI 同样未做

结论

AI 在 40 分钟内完成了原论文核心分析的验证。特征重要性排序 Top 5 完全一致,确认了血红蛋白作为吸烟预测最强因子的结论。AI 在所有可对比模型上均超过原论文性能,主因是 20 倍的数据量优势。原论文的核心学术贡献——四种 XAI 方法的交叉验证框架——不在 AI 自动化流程覆盖范围内,体现了研究者在实验设计深度上不可替代的价值。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究