复现报告：Majcherek et al. (2025) BRFSS糖尿病风险因子分析 — AI做到了什么，没做到什么

复现目标

原论文：Majcherek D, Ciesielski A, Sobczak P (2025). AI-driven analysis of diabetes risk determinants in U.S. adults: Exploring disease prevalence and health factors. PLOS ONE. DOI: 10.1371/journal.pone.0328655

第一作者机构：SGH Warsaw School of Economics
数据集：CDC 2015 BRFSS，253,680名美国成年人，21个特征变量，二分类目标（糖尿病/非糖尿病）
PMC全文：PMC12407459

复现范围：

覆盖	未覆盖
描述性统计（全21个变量分组对比）	18种模型全覆盖（AI仅测4种）
多模型分类预测（LR、RF、XGBoost、ET）	ROS/ADASYN过采样方法（AI仅用SMOTE）
特征重要性排序	SHAP可解释性分析（AI用LR系数替代）
假设检验（全变量p值）	S1 Table中不同过采样方法的交叉对比
完整论文撰写	C5.0 Decision Tree等特定模型

关键方法差异：原论文使用Random Over-Sampling (ROS)处理类别不平衡，AI使用SMOTE。这一差异直接导致了树模型性能的显著差距。

执行记录

指标	数值	来源
耗时	32分钟（精确31分52秒）	session API: created_at 19:25:29 → duration_seconds 1912
产出文件数	33个	session API: file_count
数据审核通过	307个数字验证	review_data_result.txt
待审查候选	54个（均为年份/样本量等无害数字）	review_data_result.txt
论文完整性	6个.tex文件 + PDF + DOCX	session文件列表
文献引用	OpenAlex + PubMed双源检索	7个文献检索文件

复现结果对比

特征重要性排序

原论文使用SHAP分析（基于Extra Trees模型），AI使用Logistic Regression标准化系数。两种方法的量纲不同，但排序趋势可比。

排名	原论文（SHAP）	来源	AI（LR系数）	系数值	一致性
1	BMI	SHAP analysis figure	BMI	0.4947	✅
2	Age	SHAP analysis figure	GenHlth	0.4904	⚠️ 互换
3	GenHlth	SHAP analysis figure	Age	0.4708	⚠️ 互换
4	Income	SHAP analysis figure	HvyAlcoholConsump	-0.3906	❌
5	PhysHlth	SHAP analysis figure	HighBP	0.2843	❌
6	Education	SHAP analysis figure	NoDocbcCost	-0.2760	❌

Top 3一致性：BMI、Age、GenHlth在两者中均为Top 3，仅顺序有微调（Age与GenHlth互换第2/3位）。

负相关因子（AI发现，原论文SHAP图中不明显）：

HvyAlcoholConsump (coef=-0.3906)：不饮酒与更高糖尿病风险关联
NoDocbcCost (coef=-0.2760)：未因费用放弃就医的保护效应
Fruits (coef=-0.2375)：水果摄入的保护效应
PhysActivity (coef=-0.2220)：体力活动的保护效应
DiffWalk (coef=-0.2151)：行走困难与风险的非线性关系

模型性能对比

模型	原论文AUC	来源	AI AUC	AI Accuracy	AI F1	差距
Extra Trees	0.96	Table 2, ROS	0.75	0.7896	0.3585	-0.21
Random Forest	0.90	Table 2, ROS	0.77	0.7876	0.3809	-0.13
XGBoost	0.73	Table 2, ROS	0.78	0.7266	0.4043	+0.05
Logistic Regression	0.73	Table 2, ROS	0.78	0.7221	0.4079	+0.05
C5.0 Decision Tree	0.92	Table 2, ROS	未测试	—	—	—
K-Nearest Neighbors	0.82	Table 2, ROS	未测试	—	—	—
CatBoost	0.76	Table 2, ROS	未测试	—	—	—
AdaBoost	0.74	Table 2, ROS	未测试	—	—	—

注：原论文数据均为ROS（随机过采样）条件下的结果。原论文共测试18种模型，此处列出与AI复现有交集的模型及其他高性能模型。

AI反超指标：Logistic Regression和XGBoost在SMOTE条件下AUC为0.78，高于原论文ROS条件下的0.73。这说明线性模型和梯度提升模型在SMOTE下可能获得更好的判别性能，而树模型（Extra Trees、Random Forest）在ROS下表现更好。

描述性统计对比（部分关键变量）

变量	AI：糖尿病组	AI：非糖尿病组	p值
HighBP（高血压）	75.3%	37.7%	< 0.001
BMI	31.9 ± 7.4	27.8 ± 6.3	< 0.001
GenHlth（健康评分）	3.3 ± 1.0	2.4 ± 1.0	< 0.001
Age（年龄编码）	9.4 ± 2.3	7.8 ± 3.1	< 0.001
PhysActivity（体力活动）	63.1%	77.7%	< 0.001

原论文报告高血压诊断率43%（原论文描述性统计），AI计算为42.9%（全样本），一致。

差距原因分析

过采样方法（主因）：ROS直接复制少数类样本，树模型容易在重复样本上获得完美分割，导致AUC偏高。SMOTE生成合成样本，对树模型更具挑战性。
模型数量：原论文测试18种模型取最优，AI仅4种，未覆盖C5.0 (AUC=0.92)、KNN (0.82)等高性能模型。
可解释性方法：SHAP（模型无关）vs LR系数（线性模型特定），量纲和排序依据不同。
超参数调优：原论文可能进行了更细致的超参数优化，AI使用默认或轻度调优参数。

AI做到了什么

✅ 253,680条记录的完整描述性统计分析
✅ 21个变量的假设检验，全部p < 0.001，与原论文方向一致
✅ 正确识别BMI为最强糖尿病预测因子（与原论文一致）
✅ Top 3特征排序方向一致（BMI、Age、GenHlth）
✅ 4种模型的训练、评估与对比
✅ 完整论文撰写（6个.tex章节 + PDF + DOCX）
✅ 双源文献检索（OpenAlex + PubMed）
✅ 307/361个数字通过数据审核（85%自动验证率）
✅ 发现负相关保护因子（HvyAlcoholConsump、PhysActivity等）
✅ Logistic Regression和XGBoost在SMOTE下反超原论文同模型表现

AI没做到什么

❌ 未复现最优模型性能：原论文Extra Trees AUC=0.96，AI仅0.75（差距0.21）
❌ 未测试ROS过采样：只用了SMOTE，未能复现原论文的最优过采样条件
❌ 模型覆盖不足：4/18种模型，缺少C5.0、KNN、CatBoost等
❌ 未进行SHAP分析：使用LR系数替代，无法生成SHAP summary plot
❌ 未复现过采样方法对比：原论文核心贡献之一是ROS vs SMOTE vs ADASYN的系统对比
❌ 未进行超参数精细调优：原论文可能通过Grid Search等方法优化
❌ F1分数偏低：最佳F1仅0.4079（Logistic Regression），说明在不平衡数据上精确率-召回率权衡不理想

结论

AI在32分钟内成功验证了原论文的核心发现——BMI、年龄、一般健康状况是糖尿病的三大预测因子，且所有21个变量的组间差异均统计显著。这说明数据驱动的结论具有良好的方法鲁棒性。

但在模型性能层面，AI与原论文存在显著差距（最佳AUC 0.78 vs 0.96），主要原因是过采样方法差异（SMOTE vs ROS）和模型覆盖范围不足。值得注意的是，原论文的0.96 AUC可能受ROS对树模型的过拟合效应影响，而AI的0.78可能更接近真实泛化性能——但在未复现完全相同条件的情况下，这一判断无法确证。

一句话总结：核心科学结论可复现，最优模型性能不可复现——前者是研究的本质，后者需要研究者的方法论专长。

所有AI数据来自session产出文件，可在showcase中逐一验证。所有原论文数据标注了Table/Figure来源，原文可通过PMC12407459获取。

查看完整AI分析过程 →