复现报告：Görmez et al. 肥胖等级ML预测 — Random Forest/XGBoost准确率95.27%超越原论文CatBoost，Top 3特征完全一致

复现目标

原论文：Görmez Y, Yagin FH, Yagin B, Aygun Y, Boke H, Badicu G, Fernandes MSS, Alkhateeb A, Al-Rawi MBA, Aghaei M. Prediction of obesity levels based on physical activity and eating habits with a machine learning model integrated with explainable artificial intelligence. Frontiers in Physiology. 2025;16:1549306. doi:10.3389/fphys.2025.1549306. PMCID: PMC12308079.

作者机构：Sivas Cumhuriyet University（土耳其）、Malatya Turgut Ozal University（土耳其）、Inonu University（土耳其）、Transilvania University of Braşov（罗马尼亚）、Federal University of Pernambuco（巴西）、Lakehead University（加拿大）、King Saud University（沙特阿拉伯）、NTNU/University of Freiburg（挪威/德国）。

数据集：UCI Estimation of Obesity Levels Based on Eating Habits and Physical Condition。2111条记录（498名原始参与者 + SMOTE合成数据），16个特征变量，目标变量为7类肥胖等级（Insufficient Weight, Normal Weight, Overweight Level I/II, Obesity Type I/II/III）。

复现范围：

✅ 覆盖：多模型分类对比、SHAP可解释性分析、特征重要性排序
❌ 未覆盖：LIME对比分析、CatBoost模型、原论文的重复留出验证法（100次迭代）、SHAP/LIME一致性评估指标（Table 4）

方法差异：

数据集：原论文498名参与者 vs AI使用完整UCI数据集2111条（含合成数据）
验证方法：原论文重复留出法（70/20/10，100次迭代） vs AI 10折交叉验证（80/20划分）
模型：原论文6种（CatBoost、DT、HGB、ETC、SVM、BNB） vs AI 5种（RF、XGBoost、SVM、LR、KNN）
XAI：原论文SHAP + LIME vs AI仅SHAP

执行记录

指标	数值
耗时	7分钟（08:02 → 08:09）
积分消耗	69.71积分（¥0.70）
Python脚本	6个
分析图表	6张
数据文件	5个
分析报告	1份

复现结果对比

特征重要性排序对比（SHAP分析）

排名	原论文（Table 3）	AI复现	AI重要性值	一致性
1	Weight	Weight	0.3521	✅ 一致
2	Height	Height	0.1031	✅ 一致
3	Age	Age	0.0899	✅ 一致
4	FAF（运动频率）	FCVC（蔬菜摄入）	0.0853	⚠️ 不一致
5	TUE（屏幕时间）	Gender（性别）	0.0587	⚠️ 不一致

Top 3完全一致。差异分析：第4-5名的不同可能源于数据量差异（498 vs 2111）和模型选择（原论文以CatBoost为基础的SHAP vs AI以Random Forest为基础的SHAP），不同模型对特征的依赖权重不同。

模型性能对比

模型	原论文准确率（Table 2）	AI准确率	原论文AUC（Table 2）	AI AUC	备注
CatBoost	93.67% ± 1.37%	—	99.39% ± 1.73%	—	AI未训练此模型
Decision Tree	91.64% ± 1.96%	—	97.87% ± 2.82%	—	AI未训练此模型
HGB	89.58% ± 1.44%	—	95.84% ± 1.32%	—	AI未训练此模型
Extra Trees	85.75% ± 0.99%	—	91.89% ± 4.79%	—	AI未训练此模型
SVM	81.49% ± 1.23%	92.20%	90.22% ± 1.70%	99.31%	AI准确率 +10.71pp
BNB	80.15% ± 0.49%	—	82.97% ± 6.11%	—	AI未训练此模型
Random Forest	未单独报告	95.27%	未单独报告	99.74%	AI最优模型之一
XGBoost	未单独报告	95.27%	未单独报告	99.75%	AI最优模型之一
Logistic Regression	未单独报告	87.23%	未单独报告	98.73%	—
KNN	未单独报告	83.45%	未单独报告	96.27%	—

注：原论文使用重复留出法（100次迭代），结果以均值±标准差报告；AI使用10折交叉验证，报告单次测试集结果。原论文数据集498条，AI数据集2111条。

关键发现：

AI的Random Forest和XGBoost（95.27%）均超过原论文最优CatBoost（93.67%），但数据量差异（2111 vs 498）是主要原因
在同一模型SVM上，AI准确率（92.20%）比原论文（81.49%）高出10.71个百分点，AUC从90.22%提升至99.31%
更大的数据量显著提升了所有模型的泛化能力

描述性统计

变量	均值	标准差	最小值	最大值
Age	24.31	6.35	14.0	61.0
Height	1.70	0.09	1.45	1.98
Weight	86.59	26.19	39.0	173.0
FCVC（蔬菜频率）	2.42	0.53	1.0	3.0
NCP（每日餐数）	2.69	0.78	1.0	4.0

样本性别分布：Male 1068 (50.6%), Female 1043 (49.4%)。最多的肥胖等级为Obesity_Type_I (351条, 16.6%)。

AI做到了什么

7分钟完成5种模型的完整训练、评估和比较
生成高质量SHAP蜂群图和bar plot，清晰展示全局特征重要性
核心结论（Top 3特征）与原论文高度一致
在SVM上发现了显著性能提升（+10.71pp准确率）
完整的可重复分析代码（6个Python脚本）
0.70元完成全部分析

AI没做到什么

未训练CatBoost：原论文的最优模型，无法直接在同一模型上对比
未做LIME分析：原论文的核心贡献之一是对比SHAP和LIME的解释一致性，AI仅使用SHAP
未做XAI评估指标：原论文Table 4报告了Fidelity、Sparsity、Consistency等指标，AI未计算
未使用原始498条数据：使用了含合成数据的完整UCI数据集，可能掩盖了小样本下的过拟合问题
未使用重复留出法：原论文的100次迭代重复验证提供了更稳定的性能估计
未做超参数精细调优：原论文对每个模型进行了50次随机搜索，AI的调优细节未知

结论

核心特征重要性排序（Top 3）高度一致，验证了体重、身高和年龄作为肥胖等级预测核心因子的稳健性。AI在更大数据集上取得了更高准确率（RF/XGBoost 95.27% vs CatBoost 93.67%），但直接对比需谨慎——数据量差异和验证方法差异是主要混淆因素。原论文的核心贡献（SHAP/LIME对比、XAI一致性评估）未被复现，这部分工作需要研究者的专业判断和方法论创新。

7分钟、0.70元完成基础验证，但从验证到发表之间的差距（方法论深度、理论贡献、写作质量）仍需研究者填补。

查看完整AI分析过程 →