复现报告：DASS-42焦虑预测 — 排除循环预测后AUC仍达0.88，SHAP揭示抑郁-焦虑共病机制

复现目标

原论文：ShamsEldin, T., Gaber, S., Ansari, S., Elgohary, R., Shawky, M.A., Elbahnasawy, M. & Abdrabou, M. (2025). Artificial intelligence for predicting depression anxiety and stress using psychometric data. Scientific Reports, 15, 37282. DOI: 10.1038/s41598-025-21301-1

作者机构：

Tamer ShamsEldin — 埃及技术研究中心（Technical Research Center, Cairo）
Sarah Gaber — 英国埃及大学（British University in Egypt, Cairo）
Shuja Ansari（通讯作者）— 英国格拉斯哥大学 James Watt 工程学院
Rania Elgohary — 埃及艾因夏姆斯大学信息系统系
Mahmoud A Shawky — 格拉斯哥大学 / 德国国际大学 / 埃及技术研发中心
Magdy Elbahnasawy — 埃及技术研究中心
Mohammed Abdrabou — 埃及技术研究中心

数据集：Depression Anxiety Stress Scales Responses（Kaggle 公开，DASS-42 量表），原论文使用 39,775 份问卷，AI 复现使用 10,000 条分层抽样，56 个非焦虑特征。

复现范围：

✅ 覆盖：数据预处理、焦虑等级划分（正常/轻度/中度/重度/极重度）、多模型训练、性能评估
✅ 新增：SHAP 可解释性分析（原论文未做）
✅ 新增：Stacking 集成模型（原论文未做）
✅ 新增：排除焦虑题目的非循环预测方案（方法论改进）
❌ 未覆盖：原论文的 SVM、Naive Bayes、KNN、Decision Tree 模型
❌ 未覆盖：原论文的抑郁预测和压力预测（仅复现焦虑预测部分）
⚠️ 差异：原论文使用全部 42 项 DASS 题目（含焦虑题目）预测焦虑；AI 排除 14 项焦虑题目，仅用抑郁 + 压力 + 人口统计学 + 人格特质预测

执行记录

指标	数值
总耗时	74 分钟（18:24 → 19:38）
产出文件	22+ 个
积分消耗	702.11 积分（¥7.02）
模型数量	5 种（含 Stacking）
图表数量	4 张
交叉验证	分层 5 折
数据样本	10,000 条（分层抽样自 39,775）
特征数量	56 个（排除焦虑子量表 14 题）

复现结果对比

方法论差异：循环预测 vs 非循环预测

这是本次验证与原论文最核心的区别，需要首先说明。

DASS-42 包含 42 个题目，分为三个子量表：抑郁（14 题）、焦虑（14 题）、压力（14 题）。当目标变量是"焦虑等级"时：

原论文做法：使用全部 42 项作为特征 → 其中 14 项焦虑题目直接构成目标变量的计算基础 → 循环预测
AI 复现做法：排除 14 项焦虑题目，仅使用抑郁题目（14 项）+ 压力题目（14 项）+ 人口统计学 + TIPI 人格特质 = 56 个特征 → 非循环预测

这导致两组结果不可直接比较准确率。原论文 98.9% 的准确率包含了"用答案预测答案"的成分，而 AI 的 88.2% AUC 反映的是非焦虑特征对焦虑的真实预测能力。

模型性能对比

模型	原论文 Accuracy	原论文 Precision	原论文 Recall	原论文 F1	AI Accuracy	AI AUC	来源
SVM	98.9%	98.9%	98.9%	98.9%	未测试	未测试	Table 3
Random Forest	85.2%	85.2%	84.5%	82.9%	—	—	Table 3
Naive Bayes	81.3%	81.3%	83.9%	82.0%	未测试	未测试	Table 3
KNN	79.3%	79.3%	76.9%	76.5%	未测试	未测试	Table 3
Decision Tree	73.7%	73.75%	73.7%	73.7%	未测试	未测试	Table 3
Logistic Regression	未单独报告	未单独报告	未单独报告	未单独报告	—	—	—
XGBoost	未单独报告	未单独报告	未单独报告	未单独报告	—	—	—
LightGBM	未单独报告	未单独报告	未单独报告	未单独报告	—	—	—
Stacking 集成	未测试	未测试	未测试	未测试	85.3%	0.8823	AI 复现

注：原论文未报告 AUC-ROC 值（原论文 extraction_metadata 确认）。AI 的 Stacking 集成 F1 达到 0.9117。原论文所有模型使用含焦虑题目的特征集，AI 使用排除焦虑题目的特征集，两者不可直接比较。

SHAP 特征重要性分析（AI 新增）

原论文未进行特征重要性分析（原论文 Methods section 提及 RF 可提供特征重要性但未实施）。AI 使用 SHAP 对 Stacking 集成模型进行了完整的特征解释：

排名	特征	SHAP 值	含义	临床解读
1	depression_score	0.15	抑郁子量表总分	抑郁-焦虑共病，最强预测因子
2	stress_score	0.12	压力子量表总分	压力-焦虑共病
3	Q3A_scaled	0.08	"完全无法体验积极感受"	快感缺失与焦虑关联
4	Q5A_scaled	0.07	"难以产生做事的主动性"	动机缺乏预测焦虑
5	Q10A_scaled	0.06	抑郁相关题目	抑郁症状群的预测力

关键发现：Top 5 特征中，排名第 1、3、4、5 均为抑郁相关变量。这与精神医学中焦虑-抑郁高度共病的临床共识完全一致。个体的抑郁水平（尤其是快感缺失和动机缺乏维度）是预测其焦虑水平最有效的指标。

焦虑等级分布

特征相关性分析

差距原因分析

循环预测 vs 非循环预测：这是准确率差距的首要原因。原论文将 14 项焦虑题目作为输入特征，而这些题目的加总就是焦虑等级的计算依据。AI 排除这些题目后，模型必须从抑郁、压力和人格等间接特征中学习焦虑模式，任务难度显著增加。
样本量差异：原论文 39,775 条 vs AI 10,000 条。更大的数据量通常有利于 SVM 等模型的泛化性能。
模型选择差异：原论文最佳模型 SVM 在 AI 复现中未测试。AI 使用的 Stacking 集成是原论文未尝试的方法。
训练-测试划分：原论文 70/30 vs AI 80/20。不同的划分比例影响测试集性能估计。
过采样方法：原论文未报告是否使用过采样处理类别不均衡；AI 使用 SMOTE 对少数类进行过采样。

AI做到了什么

✅ 74 分钟完成数据预处理、子量表计算、5 种模型训练、评估、SHAP 分析
✅ 设计非循环预测方案——排除焦虑题目，避免原论文的方法论隐患
✅ SHAP 可解释性分析——原论文未做，AI 补充了完整的特征重要性排序
✅ Stacking 集成——原论文未做，AI 构建了集成模型并达到最佳 AUC 0.8823
✅ 在非循环条件下 Stacking F1 达到 0.9117，说明非焦虑特征仍有较强预测力
✅ 生成 4 张核心分析图表和 22+ 个产出文件

AI没做到什么

❌ 未测试 SVM（原论文最佳模型，98.9% 准确率）
❌ 未测试 Naive Bayes、KNN、Decision Tree（原论文的 3 种模型）
❌ 未复现抑郁预测和压力预测（原论文同时预测三种状态）
❌ 使用 10,000 条抽样而非完整 39,775 条数据
❌ 未做泛化能力分析（原论文 Table 4 的 training vs testing accuracy 对比）
❌ 未与原论文做同条件对比（因刻意改变了特征集，结果不可直接比较）
❌ 未讨论跨文化适用性、临床验证等原论文提出的局限性

结论

本次验证的核心贡献不在于"复现原论文的数字"，而在于回答了一个原论文没有回答的问题：排除焦虑题目本身之后，其他心理特征能多大程度上预测焦虑？

答案是 AUC 0.8823——在非循环预测条件下，抑郁和压力特征仍然能以 88.2% 的区分度预测焦虑等级。SHAP 分析进一步揭示了抑郁得分（SHAP 0.15）和压力得分（SHAP 0.12）是最强预测因子，其中"无法体验积极感受"（Q3A）和"难以产生做事主动性"（Q5A）等具体抑郁症状也有显著贡献。

原论文 98.9% 的 SVM 准确率与 AI 的 85.3% Stacking 准确率之间的差距，恰好量化了"循环预测膨胀"的程度——约 13 个百分点的准确率差距中，相当一部分来自焦虑题目对自身预测的贡献。这对心理健康 ML 研究的方法学规范有参考价值。

74 分钟、7.02 元的成本完成了这一方法论验证。达到发表水平的深入讨论（如与临床访谈金标准的对比、不同文化群体的泛化测试）仍需要精神科研究者的专业判断。

完整引用：ShamsEldin, T., Gaber, S., Ansari, S., Elgohary, R., Shawky, M.A., Elbahnasawy, M. & Abdrabou, M. (2025). Artificial intelligence for predicting depression anxiety and stress using psychometric data. Scientific Reports, 15, 37282. DOI: 10.1038/s41598-025-21301-1

查看完整AI分析过程 →