复现目标
原论文:Tariq, R., Orozco-del-Castillo, M.G., Zamir, M.T., Ramírez-Montoya, M.S. & Wilberforce, T. (2025). Explainable artificial intelligence for predictive modeling of student stress in higher education. Scientific Reports, 15, 38375.
- Rasikh Tariq — 蒙特雷理工学院(Tecnologico de Monterrey)未来教育研究所,墨西哥
- M G Orozco-del-Castillo — 墨西哥国立理工学院梅里达分校,墨西哥
- Muhammad Tayyab Zamir — 墨西哥国立理工学院计算研究中心(CIC, IPN),墨西哥
- Maria Soledad Ramírez-Montoya — 科阿韦拉州师范学院,墨西哥
- Tabbi Wilberforce — 伦敦国王学院自然科学与工程学院,英国
数据集:Student Stress Factors: A Comprehensive Analysis(Kaggle公开数据集),1100名大学生,20个预测特征,目标变量stress_level(0=低压力/1=中等压力/2=高压力)。
复现范围:
- ✅ 覆盖:6种ML模型训练(LR, SVM, DT, RF, GB, XGBoost)、GridSearchCV调参、80/20划分、描述性统计、SHAP特征分析
- ❌ 未覆盖:VIF多重共线性筛选的具体实现、验证曲线(Validation Curves)绘制、原论文的具体GridSearchCV参数网格
方法差异:
- 原论文使用5折交叉验证,AI同样使用5折
- 超参数调优均使用GridSearchCV,但参数网格范围不同
- 原论文VIF筛选后保留全部20个特征(均<10),AI也保留全部特征
执行记录
| 指标 | 数值 |
|---|---|
| 总耗时 | 29分钟(11:23:55 → 11:52:23) |
| 产出文件 | 38个 |
| 可视化图表 | 7张 |
| 积分消耗 | 596.81积分(¥5.97) |
| 数据审核 | 247个数字验证通过,4个候选待审核 |
| 参考文献 | 自动检索并整理(102KB .bib文件) |
复现结果对比
模型性能对比
| 模型 | 原论文准确率 | 原论文来源 | AI准确率 | AI F1 | 差距 |
|---|---|---|---|---|---|
| Random Forest | 0.88 | Table 4 | 0.8909 | 0.8908 | AI +1.1% |
| SVM | 0.89 | Table 4 | 0.8864 | 0.8858 | -0.4% |
| Logistic Regression | 0.89 | Table 4 | 0.8818 | 0.8817 | -0.8% |
| Gradient Boosting | 0.87 | Table 4 | 0.8682 | 0.8683 | -0.2% |
| XGBoost | 0.88 | Table 4 | 0.8682 | 0.8678 | -1.2% |
| Decision Tree | 0.87 | Table 4 | 0.8545 | 0.8542 | -1.6% |
AI在Random Forest上反超原论文:准确率0.8909 > 0.88。原论文RF参数为n_estimators=150, max_depth=10, min_samples_split=10(Table 3);AI使用n_estimators=200, max_depth=10, min_samples_split=5——更多估计器和更细粒度的分裂条件可能是反超的原因。
最优模型差异:原论文中LR和SVM并列最优(0.89),而AI复现中RF成为最优(0.8909)。差距在1-2%以内,属于数据划分随机性和超参数差异的合理范围。
AI模型Per-Class详细性能
| 模型 | Class 0 F1 | Class 1 F1 | Class 2 F1 |
|---|---|---|---|
| Random Forest | 0.8846 | 0.9063 | 0.8816 |
| SVM | 0.8592 | 0.9116 | 0.8874 |
| Logistic Regression | 0.8571 | 0.8980 | 0.8904 |
| Gradient Boosting | 0.8684 | 0.8960 | 0.8400 |
| XGBoost | 0.8533 | 0.8960 | 0.8533 |
| Decision Tree | 0.8252 | 0.8609 | 0.8767 |
描述性统计对比(部分关键特征)
| 特征 | 低压力组(0) | 中等压力组(1) | 高压力组(2) | 来源 |
|---|---|---|---|---|
| anxiety_level | 5.43 ± 4.50 | 11.43 ± 2.95 | 16.40 ± 4.69 | AI stats_for_tex |
| depression | 6.01 ± 5.72 | 11.87 ± 3.63 | 19.83 ± 5.96 | AI stats_for_tex |
| blood_pressure | 2.20 ± 0.40 | 1.32 ± 0.74 | 3.00 ± 0.00 | AI stats_for_tex |
| sleep_quality | 4.13 ± 1.16 | 2.53 ± 0.86 | 1.30 ± 1.02 | AI stats_for_tex |
| safety | 4.10 ± 1.15 | 2.42 ± 0.80 | 1.67 ± 0.90 | AI stats_for_tex |
值得注意:高压力组的blood_pressure全部为3.00(标准差=0.00),说明该特征在高压力分类中具有极强的判别力,这与原论文SHAP分析将blood_pressure列为最重要预测因子一致(原论文 Figure 11-12)。
差距原因分析
- 超参数网格差异:原论文Table 3列出了6种模型的具体最优超参数,AI的GridSearchCV使用了不同的参数搜索范围
- 随机性影响:80/20数据划分的随机种子不同,在1100条小样本数据集上可导致1-2%性能波动
- Decision Tree差距最大(1.6%):原论文DT使用max_depth=10, min_samples_split=20, max_features=sqrt,AI使用max_depth=None, min_samples_split=2——更深的树可能导致过拟合
AI做到了什么
- 29分钟完成从数据加载到论文初稿的全流程
- 6种模型全部训练并完成GridSearchCV超参数优化
- Random Forest准确率0.8909,反超原论文的0.88
- 7张高质量可视化图表(混淆矩阵、SHAP、热图等)
- 完整LaTeX论文初稿(含abstract、introduction、methods、results、discussion、conclusions)
- 自动检索相关文献并生成102KB参考文献库
- 数据审核:247个数字自动验证通过
AI没做到什么
- VIF分析:未执行原论文的多重共线性检验(虽然原论文所有特征VIF<10均保留)
- 验证曲线:未绘制原论文的6种模型验证曲线(Validation Curves)
- 完全一致的超参数:GridSearchCV参数网格与原论文不同,导致部分模型性能有1-2%偏差
- SHAP跨模型对比:原论文对6种模型分别做了SHAP分析,AI仅对最优模型做了SHAP
- 原论文的Figure精确复现:图表风格和配色与原论文不同
结论
AI用29分钟、5.97元完成了一篇发表在Scientific Reports (IF 3.8)论文的核心分析复现。6种模型的准确率范围与原论文高度一致(AI: 0.8545-0.8909 vs 原论文: 0.87-0.89),且AI在Random Forest上反超原论文1.1个百分点。核心结论一致:基于问卷数据的机器学习模型能够以约89%的准确率预测学生压力等级,blood_pressure、safety和sleep_quality是最重要的预测因子。
研究设计上的判断——选择哪些维度的问卷特征、如何定义压力等级、如何解读SHAP结果的教育意义——仍然需要教育学和心理学研究者的专业知识。AI能快速验证方法论的可行性,但将结论转化为教育政策建议,是研究者不可替代的工作。
