复现目标
原论文:Ganie, S.M., Pramanik, P.K.D. & Zhao, Z. "Lifestyle data-based multiclass obesity prediction with interpretable ensemble models incorporating SHAP and LIME analysis." Scientific Reports (2025). DOI: 10.1038/s41598-025-20936-4
作者与机构:
- Shahid Mohammad Ganie — King Faisal University, Saudi Arabia(健康信息管理系)
- Pijush Kanti Dutta Pramanik — Galgotias University, India(计算机科学学院)
- Zhongming Zhao — University of Texas Health Science Center at Houston, USA(精准医学中心)
数据集:UCI Machine Learning Repository — Estimation of Obesity Levels Based on Eating Habits and Physical Condition。2111 条记录,17 个特征,7 个肥胖等级类别。数据来源于哥伦比亚、秘鲁和墨西哥,年龄范围 14-61 岁。其中 77% 为 SMOTE 合成数据,23% 为真实数据。
复现范围:
- ✅ 覆盖:数据预处理、特征编码、多种集成学习模型对比(Boosting/Bagging/Stacking/Voting)、SHAP 特征重要性分析
- ❌ 未覆盖:LIME 局部解释分析、Friedman 统计显著性检验 + Holm 修正、原论文 Phase I 全部 10 种模型(AI 测试了 6 种)
方法差异:
- 原论文 Phase I 测试了 5 种 Boosting(GB, XGB, LGB, CB, HGB)+ 5 种 Bagging(BDT, RF, ET, BRR, BRidge)模型
- AI 测试了 Random Forest, XGBoost, LightGBM, Extra Trees + Stacking + Voting 共 6 种
- 原论文使用 Grid Search 调参(Table 5),AI 同样使用超参数调优
- 原论文同时使用 SHAP + LIME,AI 仅使用 SHAP
执行记录
| 指标 | 数值 |
|---|---|
| 数据集大小 | 2111 行 × 17 列 |
| 总耗时 | 8 分钟(427 秒) |
| 训练模型数 | 6 种 |
| 可视化图表 | 6 张 |
| 分析文件 | 4 个 |
| 积分消耗 | 95.05(≈¥0.95) |
复现结果对比
特征重要性排序(SHAP)
| 排名 | 原论文(Figure 17) | AI 复现 | 一致性 |
|---|---|---|---|
| 1 | Weight(WT) | Weight | ✅ |
| 2 | Height(HT) | Height | ✅ |
| 3 | Age(AG) | Age | ✅ |
| 4 | Gender(GD) | Gender | ✅ |
| 5 | Family History(FH) | Family History | ✅ |
| 最低 | Smoking(SK)、Calorie Consciousness(CC) | Smoking、SCC | ✅ |
Top 5 特征排序完全一致,且最低影响特征也一致。原论文结论"体重是最强预测因子,吸烟和热量监控意识贡献最小"在 AI 复现中完全得到验证。
模型性能对比
| 模型 | 原论文准确率 | 原论文来源 | AI 准确率 | AI F1-score | 差异 |
|---|---|---|---|---|---|
| Stacking | 96.88% | Table 8 | 96.69% | 96.71% | -0.19% |
| Voting | 未报告准确率;recall 80.71% | Table 8 | 97.16% | 97.19% | AI 反超 |
| Gradient Boosting | 91.95% | Figure 7 | — | — | AI 未测此模型 |
| Bagged Decision Tree | 77.6% | Figure 7 | — | — | AI 未测此模型 |
| LightGBM | 未单独报告 | — | 96.45% | 96.47% | — |
| Random Forest | 未单独报告 | — | 95.27% | 95.34% | — |
| XGBoost | 未单独报告 | — | 95.27% | 95.32% | — |
| Extra Trees | 未单独报告 | — | 94.33% | 94.41% | — |
关键发现:AI 的 Voting 集成模型(97.16%)反超了原论文最佳 Stacking 模型(96.88%),差距 +0.28%。原论文的 Voting 模型 recall 仅 80.71%,远低于 AI 的表现,这可能源于两者的基学习器组合不同。AI 的 Stacking 模型(96.69%)与原论文(96.88%)高度接近,差距仅 0.19%。
AI 最佳模型详细分类报告(Voting Classifier)
| 类别 | Precision | Recall | F1-score | 样本数 |
|---|---|---|---|---|
| Insufficient_Weight | 1.00 | 0.94 | 0.97 | 54 |
| Normal_Weight | 0.88 | 0.98 | 0.93 | 58 |
| Obesity_Type_I | 0.99 | 0.99 | 0.99 | 70 |
| Obesity_Type_II | 0.98 | 0.98 | 0.98 | 60 |
| Obesity_Type_III | 1.00 | 0.98 | 0.99 | 65 |
| Overweight_Level_I | 0.98 | 0.91 | 0.95 | 58 |
| Overweight_Level_II | 0.98 | 1.00 | 0.99 | 58 |
| 总体 | 0.97 | 0.97 | 0.97 | 423 |
最弱类别为 Normal_Weight(F1=0.93),主要因与 Overweight_Level_I 存在混淆。
差距原因分析
- 模型覆盖范围:原论文 Phase I 测试 10 种模型,AI 测试 6 种。原论文更全面地探索了模型空间
- 统计验证:原论文使用 Friedman 检验 + Holm 修正(Table 8-9)验证模型间差异的统计显著性,AI 未执行
- 解释性方法:原论文同时使用 SHAP(全局)+ LIME(局部),AI 仅使用 SHAP
- Voting 性能差异:AI 的 Voting 模型显著优于原论文,可能因为基学习器选择不同(AI 使用 RF+XGB+LGB,原论文的具体组合未明确)
AI 做到了什么
- ✅ 完整的数据预处理和探索性分析
- ✅ 6 种集成学习模型训练和性能评估
- ✅ Stacking 和 Voting 混合集成策略
- ✅ SHAP 全局特征重要性分析(Top 5 完全一致)
- ✅ 完整的分类报告(7 类别的 P/R/F1)
- ✅ 6 张高质量可视化图表
- ✅ Voting 模型准确率 97.16% 反超原论文 96.88%
AI 没做到什么
- ❌ 未测试原论文的全部 10 种 Phase I 模型(如 Histogram GB, Bagged Ridge, Bagged Decision Tree 等)
- ❌ 未执行 LIME 局部解释分析
- ❌ 未执行 Friedman 统计显著性检验和 Holm 修正
- ❌ 未进行学习曲线分析(原论文 Figure 16)
- ❌ 未生成 ROC-AUC 和 AUPRC 曲线(原论文 Figure 13-14)
- ❌ 未与文献中的其他研究进行对比(原论文 Table 10)
结论
8 分钟内,AI 成功复现了 Ganie, Pramanik 和 Zhao 研究的核心发现:SHAP 特征重要性 Top 5 完全一致(体重 > 身高 > 年龄 > 性别 > 家族史),Stacking 模型准确率高度接近(96.69% vs 96.88%),Voting 模型甚至反超原论文(97.16% vs 原论文 recall 80.71%)。
未覆盖的部分——LIME 分析、统计显著性检验、完整 10 种模型对比——属于需要研究者专业判断的工作。AI 提供了一个高质量的 baseline,从这个 baseline 出发,研究者可以聚焦于方法创新和结果解释,而非重复性的模型训练和图表绘制。
