复现报告：Tariq et al. 2025 学生压力预测 — AI的Random Forest反超原论文，29分钟完成6种模型全流程

复现目标

原论文：Tariq, R., Orozco-del-Castillo, M.G., Zamir, M.T., Ramírez-Montoya, M.S. & Wilberforce, T. (2025). Explainable artificial intelligence for predictive modeling of student stress in higher education. Scientific Reports, 15, 38375.

Rasikh Tariq — 蒙特雷理工学院(Tecnologico de Monterrey)未来教育研究所，墨西哥
M G Orozco-del-Castillo — 墨西哥国立理工学院梅里达分校，墨西哥
Muhammad Tayyab Zamir — 墨西哥国立理工学院计算研究中心(CIC, IPN)，墨西哥
Maria Soledad Ramírez-Montoya — 科阿韦拉州师范学院，墨西哥
Tabbi Wilberforce — 伦敦国王学院自然科学与工程学院，英国

数据集：Student Stress Factors: A Comprehensive Analysis（Kaggle公开数据集），1100名大学生，20个预测特征，目标变量stress_level（0=低压力/1=中等压力/2=高压力）。

复现范围：

✅ 覆盖：6种ML模型训练（LR, SVM, DT, RF, GB, XGBoost）、GridSearchCV调参、80/20划分、描述性统计、SHAP特征分析
❌ 未覆盖：VIF多重共线性筛选的具体实现、验证曲线(Validation Curves)绘制、原论文的具体GridSearchCV参数网格

方法差异：

原论文使用5折交叉验证，AI同样使用5折
超参数调优均使用GridSearchCV，但参数网格范围不同
原论文VIF筛选后保留全部20个特征（均<10），AI也保留全部特征

执行记录

指标	数值
总耗时	29分钟（11:23:55 → 11:52:23）
产出文件	38个
可视化图表	7张
积分消耗	596.81积分（¥5.97）
数据审核	247个数字验证通过，4个候选待审核
参考文献	自动检索并整理（102KB .bib文件）

复现结果对比

模型性能对比

模型	原论文准确率	原论文来源	AI准确率	AI F1	差距
Random Forest	0.88	Table 4	0.8909	0.8908	AI +1.1%
SVM	0.89	Table 4	0.8864	0.8858	-0.4%
Logistic Regression	0.89	Table 4	0.8818	0.8817	-0.8%
Gradient Boosting	0.87	Table 4	0.8682	0.8683	-0.2%
XGBoost	0.88	Table 4	0.8682	0.8678	-1.2%
Decision Tree	0.87	Table 4	0.8545	0.8542	-1.6%

AI在Random Forest上反超原论文：准确率0.8909 > 0.88。原论文RF参数为n_estimators=150, max_depth=10, min_samples_split=10（Table 3）；AI使用n_estimators=200, max_depth=10, min_samples_split=5——更多估计器和更细粒度的分裂条件可能是反超的原因。

最优模型差异：原论文中LR和SVM并列最优（0.89），而AI复现中RF成为最优（0.8909）。差距在1-2%以内，属于数据划分随机性和超参数差异的合理范围。

AI模型Per-Class详细性能

模型	Class 0 F1	Class 1 F1	Class 2 F1
Random Forest	0.8846	0.9063	0.8816
SVM	0.8592	0.9116	0.8874
Logistic Regression	0.8571	0.8980	0.8904
Gradient Boosting	0.8684	0.8960	0.8400
XGBoost	0.8533	0.8960	0.8533
Decision Tree	0.8252	0.8609	0.8767

描述性统计对比（部分关键特征）

特征	低压力组(0)	中等压力组(1)	高压力组(2)	来源
anxiety_level	5.43 ± 4.50	11.43 ± 2.95	16.40 ± 4.69	AI stats_for_tex
depression	6.01 ± 5.72	11.87 ± 3.63	19.83 ± 5.96	AI stats_for_tex
blood_pressure	2.20 ± 0.40	1.32 ± 0.74	3.00 ± 0.00	AI stats_for_tex
sleep_quality	4.13 ± 1.16	2.53 ± 0.86	1.30 ± 1.02	AI stats_for_tex
safety	4.10 ± 1.15	2.42 ± 0.80	1.67 ± 0.90	AI stats_for_tex

值得注意：高压力组的blood_pressure全部为3.00（标准差=0.00），说明该特征在高压力分类中具有极强的判别力，这与原论文SHAP分析将blood_pressure列为最重要预测因子一致（原论文 Figure 11-12）。

差距原因分析

超参数网格差异：原论文Table 3列出了6种模型的具体最优超参数，AI的GridSearchCV使用了不同的参数搜索范围
随机性影响：80/20数据划分的随机种子不同，在1100条小样本数据集上可导致1-2%性能波动
Decision Tree差距最大（1.6%）：原论文DT使用max_depth=10, min_samples_split=20, max_features=sqrt，AI使用max_depth=None, min_samples_split=2——更深的树可能导致过拟合

AI做到了什么

29分钟完成从数据加载到论文初稿的全流程
6种模型全部训练并完成GridSearchCV超参数优化
Random Forest准确率0.8909，反超原论文的0.88
7张高质量可视化图表（混淆矩阵、SHAP、热图等）
完整LaTeX论文初稿（含abstract、introduction、methods、results、discussion、conclusions）
自动检索相关文献并生成102KB参考文献库
数据审核：247个数字自动验证通过

AI没做到什么

VIF分析：未执行原论文的多重共线性检验（虽然原论文所有特征VIF<10均保留）
验证曲线：未绘制原论文的6种模型验证曲线(Validation Curves)
完全一致的超参数：GridSearchCV参数网格与原论文不同，导致部分模型性能有1-2%偏差
SHAP跨模型对比：原论文对6种模型分别做了SHAP分析，AI仅对最优模型做了SHAP
原论文的Figure精确复现：图表风格和配色与原论文不同

结论

AI用29分钟、5.97元完成了一篇发表在Scientific Reports (IF 3.8)论文的核心分析复现。6种模型的准确率范围与原论文高度一致（AI: 0.8545-0.8909 vs 原论文: 0.87-0.89），且AI在Random Forest上反超原论文1.1个百分点。核心结论一致：基于问卷数据的机器学习模型能够以约89%的准确率预测学生压力等级，blood_pressure、safety和sleep_quality是最重要的预测因子。

研究设计上的判断——选择哪些维度的问卷特征、如何定义压力等级、如何解读SHAP结果的教育意义——仍然需要教育学和心理学研究者的专业知识。AI能快速验证方法论的可行性，但将结论转化为教育政策建议，是研究者不可替代的工作。

查看完整AI分析过程 →