透明报告论文复现DASS-42抑郁预测SVM精神科

复现报告:DASS-42抑郁预测(ShamsEldin 2025) — 决策树反超原论文4%,SVM性能差距仅1.3%

复现报告:DASS-42抑郁预测(ShamsEldin 2025) — 决策树反超原论文4%,SVM性能差距仅1.3%

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原始论文:ShamsEldin, T., Gaber, S., Ansari, S., Elgohary, R., Shawky, M.A., Elbahnasawy, M. & Abdrabou, M. (2025). Artificial intelligence for predicting depression anxiety and stress using psychometric data. Scientific Reports, 15, 37282.

作者机构:埃及开罗技术研究中心(ShamsEldin, Elbahnasawy, Abdrabou)、埃及英国大学(Gaber)、英国格拉斯哥大学(Ansari, Shawky)、艾因沙姆斯大学(Elgohary)、德国国际大学(Shawky)

数据集:Depression Anxiety Stress Scales Responses(Kaggle/OpenPsychometrics.org),39,775名匿名参与者,172列原始特征(42项DASS-42量表回答+计时/位置数据+TIPI人格量表+人口统计学信息)

复现范围

  • ✅ 覆盖:5种ML模型(SVM、随机森林、朴素贝叶斯、KNN、决策树)的抑郁严重程度预测
  • ✅ 覆盖:混淆矩阵、性能指标评估、SHAP特征重要性分析
  • ❌ 未覆盖:焦虑和压力预测(原论文同时预测3个目标)
  • ❌ 未覆盖:原论文的Levenshtein距离特征标准化方法

方法差异

  • 原论文将172列精简至68个特征(移除计时/位置列+精细分类编码),AI保留92列
  • 原论文使用Levenshtein距离匹配标准化分类变量,AI使用标准标签编码
  • 原论文对3个目标分别建模,AI仅建模抑郁预测

执行记录

指标数值
精确耗时10分钟(560秒)
产出文件数6张图表 + 分析报告 + 统计结果 + 代码文件
积分消耗137.29积分(¥1.37)
数据集规模39,775行 × 172列
清洗后特征92列

复现结果对比

抑郁严重程度分布

严重程度人数占比
正常4,31810.9%
轻度1,7554.4%
中度3,6989.3%
重度2,8717.2%
极重度27,13368.2%

注:类别严重不平衡,68.2%为极重度,这对模型训练有显著影响。

抑郁分布

模型性能对比(抑郁预测)

模型原论文准确率AI准确率原论文F1AI F1差距来源
SVM99.3%97.97%99.3%97.97%-1.33%Table 3
随机森林92.8%89.66%92.6%87.51%-3.14%Table 3
决策树79.3%83.52%79.4%83.79%+4.22%Table 3
KNN86.9%81.86%86.2%79.18%-5.04%Table 3
朴素贝叶斯87.2%74.31%87.7%78.05%-12.89%Table 3

关键发现:AI的决策树准确率83.52%,反超原论文的79.3%,差距+4.22个百分点。 这可能是因为AI保留了更多特征(92列 vs 68列),决策树从额外特征中获益更多。

模型性能对比

SVM交叉验证细节

指标AI结果
CV准确率均值97.59%
CV准确率标准差0.14%
测试准确率97.97%
精确率97.97%
召回率97.97%
F1分数97.97%

原论文SVM泛化差距0.006(Table 4),AI的CV-测试差距约0.004,泛化能力相当。

混淆矩阵

SHAP特征重要性分析

原论文未报告具体特征重要性排名。AI补充了完整的SHAP分析,识别出对抑郁预测贡献最大的DASS-42量表项目。

SHAP摘要图

特征重要性

差距原因分析

  1. 特征工程差异(主因):原论文使用Levenshtein距离匹配标准化分类变量,将172列精简至68列;AI使用标准编码保留92列。SVM对特征空间敏感,精细的特征选择可能是原论文SVM达到99.3%的关键
  2. 类别不平衡未处理:68.2%为极重度,AI未做过采样/欠采样处理,这对朴素贝叶斯和KNN的影响尤其大
  3. 超参数调优:原论文可能经过更细致的网格搜索

AI做到了什么

  • 10分钟完成39,775条记录的完整ML分析流程
  • SVM准确率97.97%,与原论文99.3%差距仅1.33个百分点
  • 决策树反超原论文4.22个百分点
  • 补充了原论文未报告的SHAP特征重要性分析
  • 生成6张高质量可视化图表
  • 完整代码和分析报告可复查

AI没做到什么

  • 未复现焦虑和压力预测(原论文3个目标,AI仅做了1个)
  • 未实现原论文的Levenshtein距离特征标准化
  • 朴素贝叶斯准确率74.31%,远低于原论文87.2%(差距12.89%)
  • 未处理类别不平衡问题(68.2%极重度)
  • 未进行深度超参数调优以追平原论文SVM的99.3%

结论

AI在10分钟内以¥1.37的成本完成了近4万人DASS-42心理量表数据的5种ML模型训练和SHAP分析。核心结论与原论文一致——SVM是抑郁严重程度预测的最优模型。AI的SVM准确率97.97%与原论文99.3%差距仅1.33%,但决策树反超原论文4.22%,说明不同的特征工程策略可能显著影响模型排序。要达到发表水平的99.3%准确率,研究者需要在特征工程(特别是分类变量编码策略)和类别不平衡处理上投入专业判断。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究