透明报告论文复现乳腺癌SHAP

复现报告:WBCD乳腺癌多模型分类 — SVM/RF/XGBoost反超原论文准确率,8分钟完成5模型训练

复现报告:WBCD乳腺癌多模型分类 — SVM/RF/XGBoost反超原论文准确率,8分钟完成5模型训练

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Ahmed KA, Humaira I, Khan AR, Hasan MS, Islam M, Roy A, Karim M, Uddin M, Mohammad A, Xames MD. Advancing breast cancer prediction: Comparative analysis of ML models and deep learning-based multi-model ensembles on original and synthetic datasets. PLoS ONE. 2025;20(6):e0326221.

作者机构:Military Institute of Science and Technology (MIST)、Bangladesh University of Engineering and Technology (BUET)、University of Dhaka,均位于孟加拉国达卡。

数据集:Wisconsin Breast Cancer Diagnostic (WBCD),UCI Machine Learning Repository。569 例样本(357 良性 / 212 恶性),30 个由 FNA 图像计算的细胞核特征。

复现范围

  • ✅ 覆盖:5 种核心 ML 模型(Logistic Regression、KNN、SVM、Random Forest、XGBoost)
  • ✅ 覆盖:分层 5 折交叉验证 + 80/20 测试集评估
  • ✅ 覆盖:SHAP 特征重要性分析
  • ❌ 未覆盖:合成数据生成(Gaussian Copula、CTGAN、Copula GAN、TVAE)
  • ❌ 未覆盖:ANN、H2O AutoML/DNN 深度学习模型
  • ❌ 未覆盖:DL-based multi-model ensemble 策略

方法差异:原论文和 AI 均使用标准化预处理 + 分层 5 折交叉验证 + 80/20 切分。随机种子不同,导致训练/测试集组成有差异。原论文额外测试了 AutoML(H2OXGBoost、H2O DNN)。

执行记录

指标数值
总耗时8 分钟(456 秒)
产出文件数15 个
可视化图表6 张
训练模型数5 种
数据集样本569 例
特征数30 个
积分消耗107 积分(¥1.07)

复现结果对比

模型性能对比(测试集)

模型原论文准确率(Table 4)AI 准确率原论文 AUC(Table 4)AI AUC原论文 PrecisionAI Precision
Logistic Regression0.97370.96491.0000.99600.96970.9750
KNN0.97370.95611.0000.98230.97410.9744
SVM0.94740.97370.9970.99470.94031.0000
Random Forest0.94740.97371.0000.99290.93831.0000
XGBoost0.94740.97371.0000.99400.94031.0000

注:加粗表示该指标上更优的一方。原论文数据均来自 Table 4(原始数据集,非合成数据)。

交叉验证对比

模型原论文 SCV Test(Table 4)AI CV Accuracy
Logistic Regression0.96460.9736
KNN0.98230.9670
SVM0.95260.9714
Random Forest0.96460.9648
XGBoost0.99120.9670

Recall 和 F1 对比

模型原论文 Recall(Table 4)AI Recall原论文 F1(Table 4)AI F1
Logistic Regression0.97420.92860.97190.9512
KNN0.96920.90480.97160.9383
SVM0.94840.92860.94400.9630
Random Forest0.95340.92860.94450.9630
XGBoost0.94840.92860.94400.9630

SHAP 特征重要性 Top 10

排名特征SHAP 值说明
1worst concave points1.055细胞核最差凹点数
2worst texture1.018细胞核最差纹理
3mean concave points0.992细胞核平均凹点数
4area error0.958面积测量误差
5worst concavity0.801细胞核最差凹度
6worst area0.763细胞核最差面积
7worst perimeter0.614细胞核最差周长
8mean texture0.548细胞核平均纹理
9compactness error0.517紧凑度测量误差
10worst radius0.509细胞核最差半径

与病理学一致性:凹点数和凹度特征排名最前,恶性肿瘤细胞核边界不规则程度高于良性,这与经典的 FNA 诊断标准吻合。"worst"(最大值)特征比"mean"特征更具区分力。

差距原因分析

  1. SVM/RF/XGBoost AI 反超:AI 在这三个模型上准确率高出 2.63%,Precision 达到 1.000。可能原因:(a)随机种子不同导致测试集恰好更有利;(b)AI 的标准化参数拟合方式与原论文有细微差异。在 569 样本的小数据集上,2-3 个样本的分类差异即可造成 2% 以上的准确率波动。

  2. KNN AI 略低:KNN 对 K 值选择和距离度量方式敏感。原论文可能使用了更精细的 K 值搜索,或不同的距离权重方案。

  3. Recall 普遍偏低:AI 的 Recall 全面低于原论文(最大差距 6.44%),说明 AI 的模型倾向于保守预测(更少将良性误判为恶性,但也漏掉了更多恶性样本)。这可能与决策阈值默认设置有关。

  4. AUC 差异小:所有模型的 AUC 差距在 0.7% 以内,说明模型的综合排序能力非常接近,差异主要体现在阈值选择上。

AI 做到了什么

  • 8 分钟完成 5 种模型的完整训练、评估和对比
  • SVM、RF、XGBoost 准确率和 Precision 超越原论文
  • SHAP 分析补充了原论文未包含的特征解释性分析
  • 生成 6 张可复现的可视化图表
  • 所有代码、数据和中间结果可下载验证

AI 没做到什么

  • 未复现合成数据部分(Gaussian Copula、TVAE 数据增强),原论文用此将训练集从 569 扩展到 10,000
  • 未复现 ANN、H2O AutoML 等深度学习模型
  • 未做超参数精细调优(如 KNN 的 K 值搜索)——这可能是 KNN 性能偏低的原因
  • Recall 全面偏低,未做阈值优化以平衡 Precision-Recall 权衡
  • 未对原论文的 Phase 2/3(合成数据 + DL 集成)进行复现
  • 未做统计显著性检验来判断性能差异是否具有统计意义

结论

在 WBCD 经典数据集上,AI 用 8 分钟完成了原论文 Phase 1 的核心 ML 建模工作,并在 SVM/RF/XGBoost 三个模型的准确率上超越原论文。同时 AI 补充了原论文未包含的 SHAP 解释性分析,揭示 worst concave points 为最强预测特征。

但 AI 在 KNN 性能、Recall 指标和合成数据策略上不及原论文。这反映了一个规律:AI 擅长快速搭建 baseline 并在标准化流程上达到甚至超越人工水平,但方法创新(如合成数据增强)和细粒度调优仍需研究者主导。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究