复现目标
原始论文:ShamsEldin, T., Gaber, S., Ansari, S., Elgohary, R., Shawky, M.A., Elbahnasawy, M. & Abdrabou, M. (2025). Artificial intelligence for predicting depression anxiety and stress using psychometric data. Scientific Reports, 15, 37282.
作者机构:埃及开罗技术研究中心(ShamsEldin, Elbahnasawy, Abdrabou)、埃及英国大学(Gaber)、英国格拉斯哥大学(Ansari, Shawky)、艾因沙姆斯大学(Elgohary)、德国国际大学(Shawky)
数据集:Depression Anxiety Stress Scales Responses(Kaggle/OpenPsychometrics.org),39,775名匿名参与者,172列原始特征(42项DASS-42量表回答+计时/位置数据+TIPI人格量表+人口统计学信息)
复现范围:
- ✅ 覆盖:5种ML模型(SVM、随机森林、朴素贝叶斯、KNN、决策树)的抑郁严重程度预测
- ✅ 覆盖:混淆矩阵、性能指标评估、SHAP特征重要性分析
- ❌ 未覆盖:焦虑和压力预测(原论文同时预测3个目标)
- ❌ 未覆盖:原论文的Levenshtein距离特征标准化方法
方法差异:
- 原论文将172列精简至68个特征(移除计时/位置列+精细分类编码),AI保留92列
- 原论文使用Levenshtein距离匹配标准化分类变量,AI使用标准标签编码
- 原论文对3个目标分别建模,AI仅建模抑郁预测
执行记录
| 指标 | 数值 |
|---|---|
| 精确耗时 | 10分钟(560秒) |
| 产出文件数 | 6张图表 + 分析报告 + 统计结果 + 代码文件 |
| 积分消耗 | 137.29积分(¥1.37) |
| 数据集规模 | 39,775行 × 172列 |
| 清洗后特征 | 92列 |
复现结果对比
抑郁严重程度分布
| 严重程度 | 人数 | 占比 |
|---|---|---|
| 正常 | 4,318 | 10.9% |
| 轻度 | 1,755 | 4.4% |
| 中度 | 3,698 | 9.3% |
| 重度 | 2,871 | 7.2% |
| 极重度 | 27,133 | 68.2% |
注:类别严重不平衡,68.2%为极重度,这对模型训练有显著影响。
模型性能对比(抑郁预测)
| 模型 | 原论文准确率 | AI准确率 | 原论文F1 | AI F1 | 差距 | 来源 |
|---|---|---|---|---|---|---|
| SVM | 99.3% | 97.97% | 99.3% | 97.97% | -1.33% | Table 3 |
| 随机森林 | 92.8% | 89.66% | 92.6% | 87.51% | -3.14% | Table 3 |
| 决策树 | 79.3% | 83.52% | 79.4% | 83.79% | +4.22% | Table 3 |
| KNN | 86.9% | 81.86% | 86.2% | 79.18% | -5.04% | Table 3 |
| 朴素贝叶斯 | 87.2% | 74.31% | 87.7% | 78.05% | -12.89% | Table 3 |
关键发现:AI的决策树准确率83.52%,反超原论文的79.3%,差距+4.22个百分点。 这可能是因为AI保留了更多特征(92列 vs 68列),决策树从额外特征中获益更多。
SVM交叉验证细节
| 指标 | AI结果 |
|---|---|
| CV准确率均值 | 97.59% |
| CV准确率标准差 | 0.14% |
| 测试准确率 | 97.97% |
| 精确率 | 97.97% |
| 召回率 | 97.97% |
| F1分数 | 97.97% |
原论文SVM泛化差距0.006(Table 4),AI的CV-测试差距约0.004,泛化能力相当。
SHAP特征重要性分析
原论文未报告具体特征重要性排名。AI补充了完整的SHAP分析,识别出对抑郁预测贡献最大的DASS-42量表项目。
差距原因分析
- 特征工程差异(主因):原论文使用Levenshtein距离匹配标准化分类变量,将172列精简至68列;AI使用标准编码保留92列。SVM对特征空间敏感,精细的特征选择可能是原论文SVM达到99.3%的关键
- 类别不平衡未处理:68.2%为极重度,AI未做过采样/欠采样处理,这对朴素贝叶斯和KNN的影响尤其大
- 超参数调优:原论文可能经过更细致的网格搜索
AI做到了什么
- 10分钟完成39,775条记录的完整ML分析流程
- SVM准确率97.97%,与原论文99.3%差距仅1.33个百分点
- 决策树反超原论文4.22个百分点
- 补充了原论文未报告的SHAP特征重要性分析
- 生成6张高质量可视化图表
- 完整代码和分析报告可复查
AI没做到什么
- 未复现焦虑和压力预测(原论文3个目标,AI仅做了1个)
- 未实现原论文的Levenshtein距离特征标准化
- 朴素贝叶斯准确率74.31%,远低于原论文87.2%(差距12.89%)
- 未处理类别不平衡问题(68.2%极重度)
- 未进行深度超参数调优以追平原论文SVM的99.3%
结论
AI在10分钟内以¥1.37的成本完成了近4万人DASS-42心理量表数据的5种ML模型训练和SHAP分析。核心结论与原论文一致——SVM是抑郁严重程度预测的最优模型。AI的SVM准确率97.97%与原论文99.3%差距仅1.33%,但决策树反超原论文4.22%,说明不同的特征工程策略可能显著影响模型排序。要达到发表水平的99.3%准确率,研究者需要在特征工程(特别是分类变量编码策略)和类别不平衡处理上投入专业判断。
