透明报告论文复现营养学肥胖预测SHAP机器学习

复现报告:Görmez et al. 肥胖等级ML预测 — Random Forest/XGBoost准确率95.27%超越原论文CatBoost,Top 3特征完全一致

复现报告:Görmez et al. 肥胖等级ML预测 — Random Forest/XGBoost准确率95.27%超越原论文CatBoost,Top 3特征完全一致

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Görmez Y, Yagin FH, Yagin B, Aygun Y, Boke H, Badicu G, Fernandes MSS, Alkhateeb A, Al-Rawi MBA, Aghaei M. Prediction of obesity levels based on physical activity and eating habits with a machine learning model integrated with explainable artificial intelligence. Frontiers in Physiology. 2025;16:1549306. doi:10.3389/fphys.2025.1549306. PMCID: PMC12308079.

作者机构:Sivas Cumhuriyet University(土耳其)、Malatya Turgut Ozal University(土耳其)、Inonu University(土耳其)、Transilvania University of Braşov(罗马尼亚)、Federal University of Pernambuco(巴西)、Lakehead University(加拿大)、King Saud University(沙特阿拉伯)、NTNU/University of Freiburg(挪威/德国)。

数据集:UCI Estimation of Obesity Levels Based on Eating Habits and Physical Condition。2111条记录(498名原始参与者 + SMOTE合成数据),16个特征变量,目标变量为7类肥胖等级(Insufficient Weight, Normal Weight, Overweight Level I/II, Obesity Type I/II/III)。

复现范围

  • ✅ 覆盖:多模型分类对比、SHAP可解释性分析、特征重要性排序
  • ❌ 未覆盖:LIME对比分析、CatBoost模型、原论文的重复留出验证法(100次迭代)、SHAP/LIME一致性评估指标(Table 4)

方法差异

  • 数据集:原论文498名参与者 vs AI使用完整UCI数据集2111条(含合成数据)
  • 验证方法:原论文重复留出法(70/20/10,100次迭代) vs AI 10折交叉验证(80/20划分)
  • 模型:原论文6种(CatBoost、DT、HGB、ETC、SVM、BNB) vs AI 5种(RF、XGBoost、SVM、LR、KNN)
  • XAI:原论文SHAP + LIME vs AI仅SHAP

执行记录

指标数值
耗时7分钟(08:02 → 08:09)
积分消耗69.71积分(¥0.70)
Python脚本6个
分析图表6张
数据文件5个
分析报告1份

复现结果对比

特征重要性排序对比(SHAP分析)

排名原论文(Table 3)AI复现AI重要性值一致性
1WeightWeight0.3521✅ 一致
2HeightHeight0.1031✅ 一致
3AgeAge0.0899✅ 一致
4FAF(运动频率)FCVC(蔬菜摄入)0.0853⚠️ 不一致
5TUE(屏幕时间)Gender(性别)0.0587⚠️ 不一致

Top 3完全一致。差异分析:第4-5名的不同可能源于数据量差异(498 vs 2111)和模型选择(原论文以CatBoost为基础的SHAP vs AI以Random Forest为基础的SHAP),不同模型对特征的依赖权重不同。

模型性能对比

模型原论文准确率(Table 2)AI准确率原论文AUC(Table 2)AI AUC备注
CatBoost93.67% ± 1.37%99.39% ± 1.73%AI未训练此模型
Decision Tree91.64% ± 1.96%97.87% ± 2.82%AI未训练此模型
HGB89.58% ± 1.44%95.84% ± 1.32%AI未训练此模型
Extra Trees85.75% ± 0.99%91.89% ± 4.79%AI未训练此模型
SVM81.49% ± 1.23%92.20%90.22% ± 1.70%99.31%AI准确率 +10.71pp
BNB80.15% ± 0.49%82.97% ± 6.11%AI未训练此模型
Random Forest未单独报告95.27%未单独报告99.74%AI最优模型之一
XGBoost未单独报告95.27%未单独报告99.75%AI最优模型之一
Logistic Regression未单独报告87.23%未单独报告98.73%
KNN未单独报告83.45%未单独报告96.27%

注:原论文使用重复留出法(100次迭代),结果以均值±标准差报告;AI使用10折交叉验证,报告单次测试集结果。原论文数据集498条,AI数据集2111条。

关键发现

  1. AI的Random Forest和XGBoost(95.27%)均超过原论文最优CatBoost(93.67%),但数据量差异(2111 vs 498)是主要原因
  2. 在同一模型SVM上,AI准确率(92.20%)比原论文(81.49%)高出10.71个百分点,AUC从90.22%提升至99.31%
  3. 更大的数据量显著提升了所有模型的泛化能力

描述性统计

变量均值标准差最小值最大值
Age24.316.3514.061.0
Height1.700.091.451.98
Weight86.5926.1939.0173.0
FCVC(蔬菜频率)2.420.531.03.0
NCP(每日餐数)2.690.781.04.0

样本性别分布:Male 1068 (50.6%), Female 1043 (49.4%)。最多的肥胖等级为Obesity_Type_I (351条, 16.6%)。

AI做到了什么

  • 7分钟完成5种模型的完整训练、评估和比较
  • 生成高质量SHAP蜂群图和bar plot,清晰展示全局特征重要性
  • 核心结论(Top 3特征)与原论文高度一致
  • 在SVM上发现了显著性能提升(+10.71pp准确率)
  • 完整的可重复分析代码(6个Python脚本)
  • 0.70元完成全部分析

AI没做到什么

  • 未训练CatBoost:原论文的最优模型,无法直接在同一模型上对比
  • 未做LIME分析:原论文的核心贡献之一是对比SHAP和LIME的解释一致性,AI仅使用SHAP
  • 未做XAI评估指标:原论文Table 4报告了Fidelity、Sparsity、Consistency等指标,AI未计算
  • 未使用原始498条数据:使用了含合成数据的完整UCI数据集,可能掩盖了小样本下的过拟合问题
  • 未使用重复留出法:原论文的100次迭代重复验证提供了更稳定的性能估计
  • 未做超参数精细调优:原论文对每个模型进行了50次随机搜索,AI的调优细节未知

结论

核心特征重要性排序(Top 3)高度一致,验证了体重、身高和年龄作为肥胖等级预测核心因子的稳健性。AI在更大数据集上取得了更高准确率(RF/XGBoost 95.27% vs CatBoost 93.67%),但直接对比需谨慎——数据量差异和验证方法差异是主要混淆因素。原论文的核心贡献(SHAP/LIME对比、XAI一致性评估)未被复现,这部分工作需要研究者的专业判断和方法论创新。

7分钟、0.70元完成基础验证,但从验证到发表之间的差距(方法论深度、理论贡献、写作质量)仍需研究者填补。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究