透明报告论文复现集成学习SHAP营养学

复现报告:Ganie et al. 肥胖等级集成学习预测 — Voting模型97.16%反超原论文Stacking的96.88%,Top 5特征排序完全一致

复现报告:Ganie et al. 肥胖等级集成学习预测 — Voting模型97.16%反超原论文Stacking的96.88%,Top 5特征排序完全一致

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Ganie, S.M., Pramanik, P.K.D. & Zhao, Z. "Lifestyle data-based multiclass obesity prediction with interpretable ensemble models incorporating SHAP and LIME analysis." Scientific Reports (2025). DOI: 10.1038/s41598-025-20936-4

作者与机构

  • Shahid Mohammad Ganie — King Faisal University, Saudi Arabia(健康信息管理系)
  • Pijush Kanti Dutta Pramanik — Galgotias University, India(计算机科学学院)
  • Zhongming Zhao — University of Texas Health Science Center at Houston, USA(精准医学中心)

数据集:UCI Machine Learning Repository — Estimation of Obesity Levels Based on Eating Habits and Physical Condition。2111 条记录,17 个特征,7 个肥胖等级类别。数据来源于哥伦比亚、秘鲁和墨西哥,年龄范围 14-61 岁。其中 77% 为 SMOTE 合成数据,23% 为真实数据。

复现范围

  • ✅ 覆盖:数据预处理、特征编码、多种集成学习模型对比(Boosting/Bagging/Stacking/Voting)、SHAP 特征重要性分析
  • ❌ 未覆盖:LIME 局部解释分析、Friedman 统计显著性检验 + Holm 修正、原论文 Phase I 全部 10 种模型(AI 测试了 6 种)

方法差异

  • 原论文 Phase I 测试了 5 种 Boosting(GB, XGB, LGB, CB, HGB)+ 5 种 Bagging(BDT, RF, ET, BRR, BRidge)模型
  • AI 测试了 Random Forest, XGBoost, LightGBM, Extra Trees + Stacking + Voting 共 6 种
  • 原论文使用 Grid Search 调参(Table 5),AI 同样使用超参数调优
  • 原论文同时使用 SHAP + LIME,AI 仅使用 SHAP

执行记录

指标数值
数据集大小2111 行 × 17 列
总耗时8 分钟(427 秒)
训练模型数6 种
可视化图表6 张
分析文件4 个
积分消耗95.05(≈¥0.95)

复现结果对比

特征重要性排序(SHAP)

排名原论文(Figure 17)AI 复现一致性
1Weight(WT)Weight
2Height(HT)Height
3Age(AG)Age
4Gender(GD)Gender
5Family History(FH)Family History
最低Smoking(SK)、Calorie Consciousness(CC)Smoking、SCC

Top 5 特征排序完全一致,且最低影响特征也一致。原论文结论"体重是最强预测因子,吸烟和热量监控意识贡献最小"在 AI 复现中完全得到验证。

模型性能对比

模型原论文准确率原论文来源AI 准确率AI F1-score差异
Stacking96.88%Table 896.69%96.71%-0.19%
Voting未报告准确率;recall 80.71%Table 897.16%97.19%AI 反超
Gradient Boosting91.95%Figure 7AI 未测此模型
Bagged Decision Tree77.6%Figure 7AI 未测此模型
LightGBM未单独报告96.45%96.47%
Random Forest未单独报告95.27%95.34%
XGBoost未单独报告95.27%95.32%
Extra Trees未单独报告94.33%94.41%

关键发现:AI 的 Voting 集成模型(97.16%)反超了原论文最佳 Stacking 模型(96.88%),差距 +0.28%。原论文的 Voting 模型 recall 仅 80.71%,远低于 AI 的表现,这可能源于两者的基学习器组合不同。AI 的 Stacking 模型(96.69%)与原论文(96.88%)高度接近,差距仅 0.19%。

AI 最佳模型详细分类报告(Voting Classifier)

类别PrecisionRecallF1-score样本数
Insufficient_Weight1.000.940.9754
Normal_Weight0.880.980.9358
Obesity_Type_I0.990.990.9970
Obesity_Type_II0.980.980.9860
Obesity_Type_III1.000.980.9965
Overweight_Level_I0.980.910.9558
Overweight_Level_II0.981.000.9958
总体0.970.970.97423

最弱类别为 Normal_Weight(F1=0.93),主要因与 Overweight_Level_I 存在混淆。

差距原因分析

  1. 模型覆盖范围:原论文 Phase I 测试 10 种模型,AI 测试 6 种。原论文更全面地探索了模型空间
  2. 统计验证:原论文使用 Friedman 检验 + Holm 修正(Table 8-9)验证模型间差异的统计显著性,AI 未执行
  3. 解释性方法:原论文同时使用 SHAP(全局)+ LIME(局部),AI 仅使用 SHAP
  4. Voting 性能差异:AI 的 Voting 模型显著优于原论文,可能因为基学习器选择不同(AI 使用 RF+XGB+LGB,原论文的具体组合未明确)

AI 做到了什么

  • ✅ 完整的数据预处理和探索性分析
  • ✅ 6 种集成学习模型训练和性能评估
  • ✅ Stacking 和 Voting 混合集成策略
  • ✅ SHAP 全局特征重要性分析(Top 5 完全一致)
  • ✅ 完整的分类报告(7 类别的 P/R/F1)
  • ✅ 6 张高质量可视化图表
  • ✅ Voting 模型准确率 97.16% 反超原论文 96.88%

AI 没做到什么

  • ❌ 未测试原论文的全部 10 种 Phase I 模型(如 Histogram GB, Bagged Ridge, Bagged Decision Tree 等)
  • ❌ 未执行 LIME 局部解释分析
  • ❌ 未执行 Friedman 统计显著性检验和 Holm 修正
  • ❌ 未进行学习曲线分析(原论文 Figure 16)
  • ❌ 未生成 ROC-AUC 和 AUPRC 曲线(原论文 Figure 13-14)
  • ❌ 未与文献中的其他研究进行对比(原论文 Table 10)

结论

8 分钟内,AI 成功复现了 Ganie, Pramanik 和 Zhao 研究的核心发现:SHAP 特征重要性 Top 5 完全一致(体重 > 身高 > 年龄 > 性别 > 家族史),Stacking 模型准确率高度接近(96.69% vs 96.88%),Voting 模型甚至反超原论文(97.16% vs 原论文 recall 80.71%)。

未覆盖的部分——LIME 分析、统计显著性检验、完整 10 种模型对比——属于需要研究者专业判断的工作。AI 提供了一个高质量的 baseline,从这个 baseline 出发,研究者可以聚焦于方法创新和结果解释,而非重复性的模型训练和图表绘制。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究