复现目标
原论文:Görmez Y, Yagin FH, Yagin B, Aygun Y, Boke H, Badicu G, Fernandes MSS, Alkhateeb A, Al-Rawi MBA, Aghaei M. Prediction of obesity levels based on physical activity and eating habits with a machine learning model integrated with explainable artificial intelligence. Frontiers in Physiology. 2025;16:1549306. doi:10.3389/fphys.2025.1549306. PMCID: PMC12308079.
作者机构:Sivas Cumhuriyet University(土耳其)、Malatya Turgut Ozal University(土耳其)、Inonu University(土耳其)、Transilvania University of Braşov(罗马尼亚)、Federal University of Pernambuco(巴西)、Lakehead University(加拿大)、King Saud University(沙特阿拉伯)、NTNU/University of Freiburg(挪威/德国)。
数据集:UCI Estimation of Obesity Levels Based on Eating Habits and Physical Condition。2111条记录(498名原始参与者 + SMOTE合成数据),16个特征变量,目标变量为7类肥胖等级(Insufficient Weight, Normal Weight, Overweight Level I/II, Obesity Type I/II/III)。
复现范围:
- ✅ 覆盖:多模型分类对比、SHAP可解释性分析、特征重要性排序
- ❌ 未覆盖:LIME对比分析、CatBoost模型、原论文的重复留出验证法(100次迭代)、SHAP/LIME一致性评估指标(Table 4)
方法差异:
- 数据集:原论文498名参与者 vs AI使用完整UCI数据集2111条(含合成数据)
- 验证方法:原论文重复留出法(70/20/10,100次迭代) vs AI 10折交叉验证(80/20划分)
- 模型:原论文6种(CatBoost、DT、HGB、ETC、SVM、BNB) vs AI 5种(RF、XGBoost、SVM、LR、KNN)
- XAI:原论文SHAP + LIME vs AI仅SHAP
执行记录
| 指标 | 数值 |
|---|---|
| 耗时 | 7分钟(08:02 → 08:09) |
| 积分消耗 | 69.71积分(¥0.70) |
| Python脚本 | 6个 |
| 分析图表 | 6张 |
| 数据文件 | 5个 |
| 分析报告 | 1份 |
复现结果对比
特征重要性排序对比(SHAP分析)
| 排名 | 原论文(Table 3) | AI复现 | AI重要性值 | 一致性 |
|---|---|---|---|---|
| 1 | Weight | Weight | 0.3521 | ✅ 一致 |
| 2 | Height | Height | 0.1031 | ✅ 一致 |
| 3 | Age | Age | 0.0899 | ✅ 一致 |
| 4 | FAF(运动频率) | FCVC(蔬菜摄入) | 0.0853 | ⚠️ 不一致 |
| 5 | TUE(屏幕时间) | Gender(性别) | 0.0587 | ⚠️ 不一致 |
Top 3完全一致。差异分析:第4-5名的不同可能源于数据量差异(498 vs 2111)和模型选择(原论文以CatBoost为基础的SHAP vs AI以Random Forest为基础的SHAP),不同模型对特征的依赖权重不同。
模型性能对比
| 模型 | 原论文准确率(Table 2) | AI准确率 | 原论文AUC(Table 2) | AI AUC | 备注 |
|---|---|---|---|---|---|
| CatBoost | 93.67% ± 1.37% | — | 99.39% ± 1.73% | — | AI未训练此模型 |
| Decision Tree | 91.64% ± 1.96% | — | 97.87% ± 2.82% | — | AI未训练此模型 |
| HGB | 89.58% ± 1.44% | — | 95.84% ± 1.32% | — | AI未训练此模型 |
| Extra Trees | 85.75% ± 0.99% | — | 91.89% ± 4.79% | — | AI未训练此模型 |
| SVM | 81.49% ± 1.23% | 92.20% | 90.22% ± 1.70% | 99.31% | AI准确率 +10.71pp |
| BNB | 80.15% ± 0.49% | — | 82.97% ± 6.11% | — | AI未训练此模型 |
| Random Forest | 未单独报告 | 95.27% | 未单独报告 | 99.74% | AI最优模型之一 |
| XGBoost | 未单独报告 | 95.27% | 未单独报告 | 99.75% | AI最优模型之一 |
| Logistic Regression | 未单独报告 | 87.23% | 未单独报告 | 98.73% | — |
| KNN | 未单独报告 | 83.45% | 未单独报告 | 96.27% | — |
注:原论文使用重复留出法(100次迭代),结果以均值±标准差报告;AI使用10折交叉验证,报告单次测试集结果。原论文数据集498条,AI数据集2111条。
关键发现:
- AI的Random Forest和XGBoost(95.27%)均超过原论文最优CatBoost(93.67%),但数据量差异(2111 vs 498)是主要原因
- 在同一模型SVM上,AI准确率(92.20%)比原论文(81.49%)高出10.71个百分点,AUC从90.22%提升至99.31%
- 更大的数据量显著提升了所有模型的泛化能力
描述性统计
| 变量 | 均值 | 标准差 | 最小值 | 最大值 |
|---|---|---|---|---|
| Age | 24.31 | 6.35 | 14.0 | 61.0 |
| Height | 1.70 | 0.09 | 1.45 | 1.98 |
| Weight | 86.59 | 26.19 | 39.0 | 173.0 |
| FCVC(蔬菜频率) | 2.42 | 0.53 | 1.0 | 3.0 |
| NCP(每日餐数) | 2.69 | 0.78 | 1.0 | 4.0 |
样本性别分布:Male 1068 (50.6%), Female 1043 (49.4%)。最多的肥胖等级为Obesity_Type_I (351条, 16.6%)。
AI做到了什么
- 7分钟完成5种模型的完整训练、评估和比较
- 生成高质量SHAP蜂群图和bar plot,清晰展示全局特征重要性
- 核心结论(Top 3特征)与原论文高度一致
- 在SVM上发现了显著性能提升(+10.71pp准确率)
- 完整的可重复分析代码(6个Python脚本)
- 0.70元完成全部分析
AI没做到什么
- 未训练CatBoost:原论文的最优模型,无法直接在同一模型上对比
- 未做LIME分析:原论文的核心贡献之一是对比SHAP和LIME的解释一致性,AI仅使用SHAP
- 未做XAI评估指标:原论文Table 4报告了Fidelity、Sparsity、Consistency等指标,AI未计算
- 未使用原始498条数据:使用了含合成数据的完整UCI数据集,可能掩盖了小样本下的过拟合问题
- 未使用重复留出法:原论文的100次迭代重复验证提供了更稳定的性能估计
- 未做超参数精细调优:原论文对每个模型进行了50次随机搜索,AI的调优细节未知
结论
核心特征重要性排序(Top 3)高度一致,验证了体重、身高和年龄作为肥胖等级预测核心因子的稳健性。AI在更大数据集上取得了更高准确率(RF/XGBoost 95.27% vs CatBoost 93.67%),但直接对比需谨慎——数据量差异和验证方法差异是主要混淆因素。原论文的核心贡献(SHAP/LIME对比、XAI一致性评估)未被复现,这部分工作需要研究者的专业判断和方法论创新。
7分钟、0.70元完成基础验证,但从验证到发表之间的差距(方法论深度、理论贡献、写作质量)仍需研究者填补。
