透明报告论文复现公共卫生机器学习糖尿病

复现报告:Majcherek et al. (2025) BRFSS糖尿病风险因子分析 — AI做到了什么,没做到什么

复现报告:Majcherek et al. (2025) BRFSS糖尿病风险因子分析 — AI做到了什么,没做到什么

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Majcherek D, Ciesielski A, Sobczak P (2025). AI-driven analysis of diabetes risk determinants in U.S. adults: Exploring disease prevalence and health factors. PLOS ONE. DOI: 10.1371/journal.pone.0328655

  • 第一作者机构:SGH Warsaw School of Economics
  • 数据集:CDC 2015 BRFSS,253,680名美国成年人,21个特征变量,二分类目标(糖尿病/非糖尿病)
  • PMC全文:PMC12407459

复现范围

覆盖未覆盖
描述性统计(全21个变量分组对比)18种模型全覆盖(AI仅测4种)
多模型分类预测(LR、RF、XGBoost、ET)ROS/ADASYN过采样方法(AI仅用SMOTE)
特征重要性排序SHAP可解释性分析(AI用LR系数替代)
假设检验(全变量p值)S1 Table中不同过采样方法的交叉对比
完整论文撰写C5.0 Decision Tree等特定模型

关键方法差异:原论文使用Random Over-Sampling (ROS)处理类别不平衡,AI使用SMOTE。这一差异直接导致了树模型性能的显著差距。

执行记录

指标数值来源
耗时32分钟(精确31分52秒)session API: created_at 19:25:29 → duration_seconds 1912
产出文件数33个session API: file_count
数据审核通过307个数字验证review_data_result.txt
待审查候选54个(均为年份/样本量等无害数字)review_data_result.txt
论文完整性6个.tex文件 + PDF + DOCXsession文件列表
文献引用OpenAlex + PubMed双源检索7个文献检索文件

复现结果对比

特征重要性排序

原论文使用SHAP分析(基于Extra Trees模型),AI使用Logistic Regression标准化系数。两种方法的量纲不同,但排序趋势可比。

排名原论文(SHAP)来源AI(LR系数)系数值一致性
1BMISHAP analysis figureBMI0.4947
2AgeSHAP analysis figureGenHlth0.4904⚠️ 互换
3GenHlthSHAP analysis figureAge0.4708⚠️ 互换
4IncomeSHAP analysis figureHvyAlcoholConsump-0.3906
5PhysHlthSHAP analysis figureHighBP0.2843
6EducationSHAP analysis figureNoDocbcCost-0.2760

Top 3一致性:BMI、Age、GenHlth在两者中均为Top 3,仅顺序有微调(Age与GenHlth互换第2/3位)。

负相关因子(AI发现,原论文SHAP图中不明显):

  • HvyAlcoholConsump (coef=-0.3906):不饮酒与更高糖尿病风险关联
  • NoDocbcCost (coef=-0.2760):未因费用放弃就医的保护效应
  • Fruits (coef=-0.2375):水果摄入的保护效应
  • PhysActivity (coef=-0.2220):体力活动的保护效应
  • DiffWalk (coef=-0.2151):行走困难与风险的非线性关系

模型性能对比

模型原论文AUC来源AI AUCAI AccuracyAI F1差距
Extra Trees0.96Table 2, ROS0.750.78960.3585-0.21
Random Forest0.90Table 2, ROS0.770.78760.3809-0.13
XGBoost0.73Table 2, ROS0.780.72660.4043+0.05
Logistic Regression0.73Table 2, ROS0.780.72210.4079+0.05
C5.0 Decision Tree0.92Table 2, ROS未测试
K-Nearest Neighbors0.82Table 2, ROS未测试
CatBoost0.76Table 2, ROS未测试
AdaBoost0.74Table 2, ROS未测试

:原论文数据均为ROS(随机过采样)条件下的结果。原论文共测试18种模型,此处列出与AI复现有交集的模型及其他高性能模型。

AI反超指标Logistic Regression和XGBoost在SMOTE条件下AUC为0.78,高于原论文ROS条件下的0.73。这说明线性模型和梯度提升模型在SMOTE下可能获得更好的判别性能,而树模型(Extra Trees、Random Forest)在ROS下表现更好。

描述性统计对比(部分关键变量)

变量AI:糖尿病组AI:非糖尿病组p值
HighBP(高血压)75.3%37.7%< 0.001
BMI31.9 ± 7.427.8 ± 6.3< 0.001
GenHlth(健康评分)3.3 ± 1.02.4 ± 1.0< 0.001
Age(年龄编码)9.4 ± 2.37.8 ± 3.1< 0.001
PhysActivity(体力活动)63.1%77.7%< 0.001

原论文报告高血压诊断率43%(原论文描述性统计),AI计算为42.9%(全样本),一致。

差距原因分析

  1. 过采样方法(主因):ROS直接复制少数类样本,树模型容易在重复样本上获得完美分割,导致AUC偏高。SMOTE生成合成样本,对树模型更具挑战性。
  2. 模型数量:原论文测试18种模型取最优,AI仅4种,未覆盖C5.0 (AUC=0.92)、KNN (0.82)等高性能模型。
  3. 可解释性方法:SHAP(模型无关)vs LR系数(线性模型特定),量纲和排序依据不同。
  4. 超参数调优:原论文可能进行了更细致的超参数优化,AI使用默认或轻度调优参数。

AI做到了什么

  • ✅ 253,680条记录的完整描述性统计分析
  • ✅ 21个变量的假设检验,全部p < 0.001,与原论文方向一致
  • ✅ 正确识别BMI为最强糖尿病预测因子(与原论文一致)
  • ✅ Top 3特征排序方向一致(BMI、Age、GenHlth)
  • ✅ 4种模型的训练、评估与对比
  • ✅ 完整论文撰写(6个.tex章节 + PDF + DOCX)
  • ✅ 双源文献检索(OpenAlex + PubMed)
  • ✅ 307/361个数字通过数据审核(85%自动验证率)
  • ✅ 发现负相关保护因子(HvyAlcoholConsump、PhysActivity等)
  • ✅ Logistic Regression和XGBoost在SMOTE下反超原论文同模型表现

AI没做到什么

  • 未复现最优模型性能:原论文Extra Trees AUC=0.96,AI仅0.75(差距0.21)
  • 未测试ROS过采样:只用了SMOTE,未能复现原论文的最优过采样条件
  • 模型覆盖不足:4/18种模型,缺少C5.0、KNN、CatBoost等
  • 未进行SHAP分析:使用LR系数替代,无法生成SHAP summary plot
  • 未复现过采样方法对比:原论文核心贡献之一是ROS vs SMOTE vs ADASYN的系统对比
  • 未进行超参数精细调优:原论文可能通过Grid Search等方法优化
  • F1分数偏低:最佳F1仅0.4079(Logistic Regression),说明在不平衡数据上精确率-召回率权衡不理想

结论

AI在32分钟内成功验证了原论文的核心发现——BMI、年龄、一般健康状况是糖尿病的三大预测因子,且所有21个变量的组间差异均统计显著。这说明数据驱动的结论具有良好的方法鲁棒性。

但在模型性能层面,AI与原论文存在显著差距(最佳AUC 0.78 vs 0.96),主要原因是过采样方法差异(SMOTE vs ROS)和模型覆盖范围不足。值得注意的是,原论文的0.96 AUC可能受ROS对树模型的过拟合效应影响,而AI的0.78可能更接近真实泛化性能——但在未复现完全相同条件的情况下,这一判断无法确证。

一句话总结:核心科学结论可复现,最优模型性能不可复现——前者是研究的本质,后者需要研究者的方法论专长。


所有AI数据来自session产出文件,可在showcase中逐一验证。所有原论文数据标注了Table/Figure来源,原文可通过PMC12407459获取。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究