透明报告论文复现焦虑预测DASS-42SHAP

复现报告:DASS-42焦虑预测 — 排除循环预测后AUC仍达0.88,SHAP揭示抑郁-焦虑共病机制

复现报告:DASS-42焦虑预测 — 排除循环预测后AUC仍达0.88,SHAP揭示抑郁-焦虑共病机制

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:ShamsEldin, T., Gaber, S., Ansari, S., Elgohary, R., Shawky, M.A., Elbahnasawy, M. & Abdrabou, M. (2025). Artificial intelligence for predicting depression anxiety and stress using psychometric data. Scientific Reports, 15, 37282. DOI: 10.1038/s41598-025-21301-1

作者机构

  • Tamer ShamsEldin — 埃及技术研究中心(Technical Research Center, Cairo)
  • Sarah Gaber — 英国埃及大学(British University in Egypt, Cairo)
  • Shuja Ansari(通讯作者)— 英国格拉斯哥大学 James Watt 工程学院
  • Rania Elgohary — 埃及艾因夏姆斯大学信息系统系
  • Mahmoud A Shawky — 格拉斯哥大学 / 德国国际大学 / 埃及技术研发中心
  • Magdy Elbahnasawy — 埃及技术研究中心
  • Mohammed Abdrabou — 埃及技术研究中心

数据集:Depression Anxiety Stress Scales Responses(Kaggle 公开,DASS-42 量表),原论文使用 39,775 份问卷,AI 复现使用 10,000 条分层抽样,56 个非焦虑特征。

复现范围

  • ✅ 覆盖:数据预处理、焦虑等级划分(正常/轻度/中度/重度/极重度)、多模型训练、性能评估
  • ✅ 新增:SHAP 可解释性分析(原论文未做)
  • ✅ 新增:Stacking 集成模型(原论文未做)
  • ✅ 新增:排除焦虑题目的非循环预测方案(方法论改进)
  • ❌ 未覆盖:原论文的 SVM、Naive Bayes、KNN、Decision Tree 模型
  • ❌ 未覆盖:原论文的抑郁预测和压力预测(仅复现焦虑预测部分)
  • ⚠️ 差异:原论文使用全部 42 项 DASS 题目(含焦虑题目)预测焦虑;AI 排除 14 项焦虑题目,仅用抑郁 + 压力 + 人口统计学 + 人格特质预测

执行记录

指标数值
总耗时74 分钟(18:24 → 19:38)
产出文件22+ 个
积分消耗702.11 积分(¥7.02)
模型数量5 种(含 Stacking)
图表数量4 张
交叉验证分层 5 折
数据样本10,000 条(分层抽样自 39,775)
特征数量56 个(排除焦虑子量表 14 题)

复现结果对比

方法论差异:循环预测 vs 非循环预测

这是本次验证与原论文最核心的区别,需要首先说明。

DASS-42 包含 42 个题目,分为三个子量表:抑郁(14 题)、焦虑(14 题)、压力(14 题)。当目标变量是"焦虑等级"时:

  • 原论文做法:使用全部 42 项作为特征 → 其中 14 项焦虑题目直接构成目标变量的计算基础 → 循环预测
  • AI 复现做法:排除 14 项焦虑题目,仅使用抑郁题目(14 项)+ 压力题目(14 项)+ 人口统计学 + TIPI 人格特质 = 56 个特征 → 非循环预测

这导致两组结果不可直接比较准确率。原论文 98.9% 的准确率包含了"用答案预测答案"的成分,而 AI 的 88.2% AUC 反映的是非焦虑特征对焦虑的真实预测能力。

模型性能对比

模型原论文 Accuracy原论文 Precision原论文 Recall原论文 F1AI AccuracyAI AUC来源
SVM98.9%98.9%98.9%98.9%未测试未测试Table 3
Random Forest85.2%85.2%84.5%82.9%Table 3
Naive Bayes81.3%81.3%83.9%82.0%未测试未测试Table 3
KNN79.3%79.3%76.9%76.5%未测试未测试Table 3
Decision Tree73.7%73.75%73.7%73.7%未测试未测试Table 3
Logistic Regression未单独报告未单独报告未单独报告未单独报告
XGBoost未单独报告未单独报告未单独报告未单独报告
LightGBM未单独报告未单独报告未单独报告未单独报告
Stacking 集成未测试未测试未测试未测试85.3%0.8823AI 复现

:原论文未报告 AUC-ROC 值(原论文 extraction_metadata 确认)。AI 的 Stacking 集成 F1 达到 0.9117。原论文所有模型使用含焦虑题目的特征集,AI 使用排除焦虑题目的特征集,两者不可直接比较。

模型性能对比

SHAP 特征重要性分析(AI 新增)

原论文未进行特征重要性分析(原论文 Methods section 提及 RF 可提供特征重要性但未实施)。AI 使用 SHAP 对 Stacking 集成模型进行了完整的特征解释:

排名特征SHAP 值含义临床解读
1depression_score0.15抑郁子量表总分抑郁-焦虑共病,最强预测因子
2stress_score0.12压力子量表总分压力-焦虑共病
3Q3A_scaled0.08"完全无法体验积极感受"快感缺失与焦虑关联
4Q5A_scaled0.07"难以产生做事的主动性"动机缺乏预测焦虑
5Q10A_scaled0.06抑郁相关题目抑郁症状群的预测力

关键发现:Top 5 特征中,排名第 1、3、4、5 均为抑郁相关变量。这与精神医学中焦虑-抑郁高度共病的临床共识完全一致。个体的抑郁水平(尤其是快感缺失和动机缺乏维度)是预测其焦虑水平最有效的指标。

SHAP 特征重要性

焦虑等级分布

焦虑等级分布

特征相关性分析

特征相关性

差距原因分析

  1. 循环预测 vs 非循环预测:这是准确率差距的首要原因。原论文将 14 项焦虑题目作为输入特征,而这些题目的加总就是焦虑等级的计算依据。AI 排除这些题目后,模型必须从抑郁、压力和人格等间接特征中学习焦虑模式,任务难度显著增加。

  2. 样本量差异:原论文 39,775 条 vs AI 10,000 条。更大的数据量通常有利于 SVM 等模型的泛化性能。

  3. 模型选择差异:原论文最佳模型 SVM 在 AI 复现中未测试。AI 使用的 Stacking 集成是原论文未尝试的方法。

  4. 训练-测试划分:原论文 70/30 vs AI 80/20。不同的划分比例影响测试集性能估计。

  5. 过采样方法:原论文未报告是否使用过采样处理类别不均衡;AI 使用 SMOTE 对少数类进行过采样。

AI做到了什么

  • ✅ 74 分钟完成数据预处理、子量表计算、5 种模型训练、评估、SHAP 分析
  • 设计非循环预测方案——排除焦虑题目,避免原论文的方法论隐患
  • SHAP 可解释性分析——原论文未做,AI 补充了完整的特征重要性排序
  • Stacking 集成——原论文未做,AI 构建了集成模型并达到最佳 AUC 0.8823
  • ✅ 在非循环条件下 Stacking F1 达到 0.9117,说明非焦虑特征仍有较强预测力
  • ✅ 生成 4 张核心分析图表和 22+ 个产出文件

AI没做到什么

  • ❌ 未测试 SVM(原论文最佳模型,98.9% 准确率)
  • ❌ 未测试 Naive Bayes、KNN、Decision Tree(原论文的 3 种模型)
  • ❌ 未复现抑郁预测和压力预测(原论文同时预测三种状态)
  • ❌ 使用 10,000 条抽样而非完整 39,775 条数据
  • ❌ 未做泛化能力分析(原论文 Table 4 的 training vs testing accuracy 对比)
  • ❌ 未与原论文做同条件对比(因刻意改变了特征集,结果不可直接比较)
  • ❌ 未讨论跨文化适用性、临床验证等原论文提出的局限性

结论

本次验证的核心贡献不在于"复现原论文的数字",而在于回答了一个原论文没有回答的问题:排除焦虑题目本身之后,其他心理特征能多大程度上预测焦虑?

答案是 AUC 0.8823——在非循环预测条件下,抑郁和压力特征仍然能以 88.2% 的区分度预测焦虑等级。SHAP 分析进一步揭示了抑郁得分(SHAP 0.15)和压力得分(SHAP 0.12)是最强预测因子,其中"无法体验积极感受"(Q3A)和"难以产生做事主动性"(Q5A)等具体抑郁症状也有显著贡献。

原论文 98.9% 的 SVM 准确率与 AI 的 85.3% Stacking 准确率之间的差距,恰好量化了"循环预测膨胀"的程度——约 13 个百分点的准确率差距中,相当一部分来自焦虑题目对自身预测的贡献。这对心理健康 ML 研究的方法学规范有参考价值。

74 分钟、7.02 元的成本完成了这一方法论验证。达到发表水平的深入讨论(如与临床访谈金标准的对比、不同文化群体的泛化测试)仍需要精神科研究者的专业判断。

完整引用:ShamsEldin, T., Gaber, S., Ansari, S., Elgohary, R., Shawky, M.A., Elbahnasawy, M. & Abdrabou, M. (2025). Artificial intelligence for predicting depression anxiety and stress using psychometric data. Scientific Reports, 15, 37282. DOI: 10.1038/s41598-025-21301-1

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究