透明报告论文复现帕金森病SHAP神经科学

复现报告:帕金森病可解释AI预测 — UPDRS与认知功能成AI首要预测因子,与原论文高度一致

复现报告:帕金森病可解释AI预测 — UPDRS与认知功能成AI首要预测因子,与原论文高度一致

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Esan AO, Olawade DB, Soladoye AA, Omodunbi BA, Adeyanju IA, Aderinto N. Explainable AI for Parkinson's disease prediction: A machine learning approach with interpretable models. Current Research in Translational Medicine. 2025. DOI: 10.1016/j.retram.2025.103541

作者机构

  • Esan AO, Soladoye AA, Omodunbi BA, Adeyanju IA — Federal University Oye-Ekiti, 计算机工程系, Nigeria
  • Olawade DB(通讯作者) — 东伦敦大学 / Medway NHS Foundation Trust / York St John 大学 / Arden 大学, UK
  • Aderinto N — Ladoke Akintola University of Technology, Nigeria

数据集:2,105 条临床记录,预处理后 32 个特征

复现范围

覆盖未覆盖
7 种 ML 模型训练(LR、SVM、KNN、RF、XGBoost、LightGBM、Stacking)SMOTE 过采样
SHAP 特征重要性分析Sequential Backward Elimination (SBE) 特征选择
混淆矩阵、ROC 曲线等完整评估BEFS+AACOAhp 混合特征选择+超参优化
多模型性能对比MinMax 归一化(AI 用 StandardScaler)

关键方法差异

  • 类别平衡:原论文使用 SMOTE 过采样 → AI 未做过采样处理
  • 特征选择:原论文使用 Sequential Backward Elimination (SBE) 进行特征筛选 → AI 使用全部特征
  • 超参优化:原论文使用 BEFS+AACOAhp(人工蜂群+蚂蚁殖民优化混合算法)→ AI 使用默认/网格搜索
  • 标准化:原论文 MinMax Scaling → AI StandardScaler

执行记录

指标数值
数据集2,105 条临床记录,32 个特征
耗时21 分钟
产出文件10+ 个(Python 脚本 + 分析 CSV + 8 张图表)
积分消耗54.42 积分(¥0.54)
模型数量7(LR、SVM、KNN、RF、XGBoost、LightGBM、Stacking)
图表数量8 张

复现结果对比

特征重要性排序对比

排名原论文(Section 3.2.1, Fig 2)AI 复现(SHAP)一致性
1MoCA(认知评估)UPDRS(运动评分)= 2.47⚠️ 互换
2FunctionalAssessment(功能评估)FunctionalAssessment = 1.66✅ 均在前列
3Hypertension(高血压)Bradykinesia(运动迟缓)= 1.60⚠️ 不同
4UPDRS(运动评分)Rigidity(肌强直)= 1.54⚠️ 不同
5Tremor(震颤)Tremor(震颤)= 1.35✅ 均在 Top 5

关键发现

原论文和 AI 复现在核心预测因子上高度一致——UPDRS 和 FunctionalAssessment 在两项研究中均为最重要的预测因子,仅排序位置不同。两项分析都确认了临床功能评估指标对帕金森病预测的核心价值。

有趣的分歧:原论文 SHAP 分析将认知功能(MoCA)排在第一位,而 AI 将运动症状评分(UPDRS)排在第一位。原论文特别指出运动症状(如震颤)在 SHAP 中的贡献反而较低,认知/功能指标贡献更高(原论文 Section 3.2.1)。AI 复现中,运动症状相关特征(Bradykinesia、Rigidity、Tremor)整体排名靠前,但 MoCA 降至第 7 位(SHAP 值 0.81)。这一差异可能源于 SMOTE 和 SBE 对特征空间的改变——过采样和特征选择后,特征间的相对重要性会重新分配。

SHAP 特征重要性

AI 复现的完整 SHAP Top 10:

排名特征SHAP 值
1UPDRS2.47
2FunctionalAssessment1.66
3Bradykinesia1.60
4Rigidity1.54
5Tremor1.35
6PosturalInstability1.17
7MoCA0.81
8FamilyHistoryParkinsons0.43
9SleepQuality0.31
10CholesterolLDL0.24

SHAP Beeswarm

模型性能对比

模型原论文准确率(Table 1)AI 准确率原论文 AUC(Table 1)AI AUC备注
KNN79%73.4%0.840.773差距较大
SVM84%80.3%0.900.891AUC 接近
Logistic Regression83%79.8%0.900.891AUC 接近
XGBoost92%77.9%0.960.870差距显著
Random Forest未单独报告77.7%未单独报告0.856原论文仅报告 BEFS+AACOAhp+RF
LightGBM未单独报告80.3%未单独报告0.873原论文未测试
Stacking92%78.9%0.960.888差距显著
BEFS+AACOAhp+RF93%0.97原论文最优,AI 未实现

AI 最优模型:LightGBM 和 SVM 并列 80.3% 准确率。

模型性能对比

ROC 曲线

差距原因分析

原论文最优模型 93% 准确率 vs AI 最优 80.3%,差距 12.7 个百分点。原因如下:

  1. SMOTE 过采样(主因之一):原论文使用 SMOTE 对少数类进行过采样,平衡了类别分布。AI 未做任何过采样处理,在类别不平衡数据上性能自然受限。

  2. SBE 特征选择(主因之一):原论文使用 Sequential Backward Elimination 筛选最优特征子集,减少了噪声特征对模型的干扰。AI 使用全部 32 个特征,可能引入了冗余信息。

  3. BEFS+AACOAhp 超参优化:原论文使用人工蜂群+蚂蚁殖民优化的混合元启发式算法进行超参数调优,这是该论文的核心创新。AI 使用默认参数或基础网格搜索,优化深度远不及原论文。

  4. 标准化方法差异:原论文 MinMax Scaling vs AI StandardScaler,对 SVM、KNN 等距离敏感模型有影响。

值得注意的是,AI 的 SVM 和 LR 在 AUC 上接近原论文(0.891 vs 0.90),说明在概率排序能力上差距并不大,主要差距体现在分类阈值的选择上。

特征相关性热力图

关键特征分布

AI 做到了什么

  • ✅ 21 分钟完成 7 种模型的训练、评估和 SHAP 分析,消耗 ¥0.54
  • ✅ 确认 UPDRS 和 FunctionalAssessment 为核心预测因子(与原论文一致)
  • ✅ SVM 和 LR 的 AUC 接近原论文水平(0.891 vs 0.90)
  • ✅ 生成 8 张可视化图表(模型对比、ROC、SHAP importance、SHAP beeswarm、相关性热力图、特征分布等)
  • ✅ 提供了原论文未单独报告的 LightGBM 模型结果(AUC=0.873)
  • ✅ 完整的 SHAP Top 10 特征排序,揭示了运动症状与认知指标的相对重要性

AI 没做到什么

  • 准确率差距 12.7 个百分点:AI 最优 80.3% vs 原论文 93%,根本原因是未实现 SMOTE + SBE + BEFS+AACOAhp 三重优化
  • 未实现 SMOTE 过采样:原论文的类别平衡策略是性能提升的关键步骤之一
  • 未实现 SBE 特征选择:Sequential Backward Elimination 需要大量计算资源和定制实现
  • 未实现 BEFS+AACOAhp 超参优化:这是原论文的核心算法创新——结合人工蜂群和蚁群优化的混合元启发式方法,需要专门的算法实现
  • MoCA 排名显著不同:原论文 MoCA 排第 1,AI 排第 7(SHAP 值 0.81),特征选择和过采样的缺失改变了特征间的相对权重
  • 未做 MinMax 归一化:AI 默认使用 StandardScaler

结论

AI 在 21 分钟内完成了帕金森病预测的 7 模型 baseline 建立和 SHAP 可解释性分析。核心结论与原论文一致:UPDRS 和 FunctionalAssessment 是帕金森病最重要的预测因子,临床功能评估指标的预测价值高于单一生理指标。

性能差距(80.3% vs 93%)诚实地反映了原论文三重优化策略的价值——SMOTE 平衡数据、SBE 精选特征、BEFS+AACOAhp 精调参数,这三步缺一不可。原论文提出的混合元启发式超参优化方法是其核心学术贡献,不在 AI 自动化流程的覆盖范围内。

一个值得关注的分歧是 MoCA(认知评估)的排名差异。原论文发现认知功能是第一预测因子,运动症状贡献较低(原论文 Section 3.2.1);AI 则将运动症状(UPDRS、Bradykinesia、Rigidity)排在更前面。这提示 SMOTE 和 SBE 可能改变了认知指标与运动指标的相对权重,这一发现本身具有方法学研究价值。

21 分钟,0.54 元,10+ 个文件。快速验证研究方向,AI 胜任;设计混合优化算法,研究者不可替代。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究