复现报告：Ganie et al. 肥胖等级集成学习预测 — Voting模型97.16%反超原论文Stacking的96.88%，Top 5特征排序完全一致

复现目标

原论文：Ganie, S.M., Pramanik, P.K.D. & Zhao, Z. "Lifestyle data-based multiclass obesity prediction with interpretable ensemble models incorporating SHAP and LIME analysis." Scientific Reports (2025). DOI: 10.1038/s41598-025-20936-4

作者与机构：

Shahid Mohammad Ganie — King Faisal University, Saudi Arabia（健康信息管理系）
Pijush Kanti Dutta Pramanik — Galgotias University, India（计算机科学学院）
Zhongming Zhao — University of Texas Health Science Center at Houston, USA（精准医学中心）

数据集：UCI Machine Learning Repository — Estimation of Obesity Levels Based on Eating Habits and Physical Condition。2111 条记录，17 个特征，7 个肥胖等级类别。数据来源于哥伦比亚、秘鲁和墨西哥，年龄范围 14-61 岁。其中 77% 为 SMOTE 合成数据，23% 为真实数据。

复现范围：

✅ 覆盖：数据预处理、特征编码、多种集成学习模型对比（Boosting/Bagging/Stacking/Voting）、SHAP 特征重要性分析
❌ 未覆盖：LIME 局部解释分析、Friedman 统计显著性检验 + Holm 修正、原论文 Phase I 全部 10 种模型（AI 测试了 6 种）

方法差异：

原论文 Phase I 测试了 5 种 Boosting（GB, XGB, LGB, CB, HGB）+ 5 种 Bagging（BDT, RF, ET, BRR, BRidge）模型
AI 测试了 Random Forest, XGBoost, LightGBM, Extra Trees + Stacking + Voting 共 6 种
原论文使用 Grid Search 调参（Table 5），AI 同样使用超参数调优
原论文同时使用 SHAP + LIME，AI 仅使用 SHAP

执行记录

指标	数值
数据集大小	2111 行 × 17 列
总耗时	8 分钟（427 秒）
训练模型数	6 种
可视化图表	6 张
分析文件	4 个
积分消耗	95.05（≈¥0.95）

复现结果对比

特征重要性排序（SHAP）

排名	原论文（Figure 17）	AI 复现	一致性
1	Weight（WT）	Weight	✅
2	Height（HT）	Height	✅
3	Age（AG）	Age	✅
4	Gender（GD）	Gender	✅
5	Family History（FH）	Family History	✅
最低	Smoking（SK）、Calorie Consciousness（CC）	Smoking、SCC	✅

Top 5 特征排序完全一致，且最低影响特征也一致。原论文结论"体重是最强预测因子，吸烟和热量监控意识贡献最小"在 AI 复现中完全得到验证。

模型性能对比

模型	原论文准确率	原论文来源	AI 准确率	AI F1-score	差异
Stacking	96.88%	Table 8	96.69%	96.71%	-0.19%
Voting	未报告准确率；recall 80.71%	Table 8	97.16%	97.19%	AI 反超
Gradient Boosting	91.95%	Figure 7	—	—	AI 未测此模型
Bagged Decision Tree	77.6%	Figure 7	—	—	AI 未测此模型
LightGBM	未单独报告	—	96.45%	96.47%	—
Random Forest	未单独报告	—	95.27%	95.34%	—
XGBoost	未单独报告	—	95.27%	95.32%	—
Extra Trees	未单独报告	—	94.33%	94.41%	—

关键发现：AI 的 Voting 集成模型（97.16%）反超了原论文最佳 Stacking 模型（96.88%），差距 +0.28%。原论文的 Voting 模型 recall 仅 80.71%，远低于 AI 的表现，这可能源于两者的基学习器组合不同。AI 的 Stacking 模型（96.69%）与原论文（96.88%）高度接近，差距仅 0.19%。

AI 最佳模型详细分类报告（Voting Classifier）

类别	Precision	Recall	F1-score	样本数
Insufficient_Weight	1.00	0.94	0.97	54
Normal_Weight	0.88	0.98	0.93	58
Obesity_Type_I	0.99	0.99	0.99	70
Obesity_Type_II	0.98	0.98	0.98	60
Obesity_Type_III	1.00	0.98	0.99	65
Overweight_Level_I	0.98	0.91	0.95	58
Overweight_Level_II	0.98	1.00	0.99	58
总体	0.97	0.97	0.97	423

最弱类别为 Normal_Weight（F1=0.93），主要因与 Overweight_Level_I 存在混淆。

差距原因分析

模型覆盖范围：原论文 Phase I 测试 10 种模型，AI 测试 6 种。原论文更全面地探索了模型空间
统计验证：原论文使用 Friedman 检验 + Holm 修正（Table 8-9）验证模型间差异的统计显著性，AI 未执行
解释性方法：原论文同时使用 SHAP（全局）+ LIME（局部），AI 仅使用 SHAP
Voting 性能差异：AI 的 Voting 模型显著优于原论文，可能因为基学习器选择不同（AI 使用 RF+XGB+LGB，原论文的具体组合未明确）

AI 做到了什么

✅ 完整的数据预处理和探索性分析
✅ 6 种集成学习模型训练和性能评估
✅ Stacking 和 Voting 混合集成策略
✅ SHAP 全局特征重要性分析（Top 5 完全一致）
✅ 完整的分类报告（7 类别的 P/R/F1）
✅ 6 张高质量可视化图表
✅ Voting 模型准确率 97.16% 反超原论文 96.88%

AI 没做到什么

❌ 未测试原论文的全部 10 种 Phase I 模型（如 Histogram GB, Bagged Ridge, Bagged Decision Tree 等）
❌ 未执行 LIME 局部解释分析
❌ 未执行 Friedman 统计显著性检验和 Holm 修正
❌ 未进行学习曲线分析（原论文 Figure 16）
❌ 未生成 ROC-AUC 和 AUPRC 曲线（原论文 Figure 13-14）
❌ 未与文献中的其他研究进行对比（原论文 Table 10）

结论

8 分钟内，AI 成功复现了 Ganie, Pramanik 和 Zhao 研究的核心发现：SHAP 特征重要性 Top 5 完全一致（体重 > 身高 > 年龄 > 性别 > 家族史），Stacking 模型准确率高度接近（96.69% vs 96.88%），Voting 模型甚至反超原论文（97.16% vs 原论文 recall 80.71%）。

未覆盖的部分——LIME 分析、统计显著性检验、完整 10 种模型对比——属于需要研究者专业判断的工作。AI 提供了一个高质量的 baseline，从这个 baseline 出发，研究者可以聚焦于方法创新和结果解释，而非重复性的模型训练和图表绘制。

查看完整AI分析过程 →