复现目标
原论文:Ahmed KA, Humaira I, Khan AR, Hasan MS, Islam M, Roy A, Karim M, Uddin M, Mohammad A, Xames MD. Advancing breast cancer prediction: Comparative analysis of ML models and deep learning-based multi-model ensembles on original and synthetic datasets. PLoS ONE. 2025;20(6):e0326221.
作者机构:Military Institute of Science and Technology (MIST)、Bangladesh University of Engineering and Technology (BUET)、University of Dhaka,均位于孟加拉国达卡。
数据集:Wisconsin Breast Cancer Diagnostic (WBCD),UCI Machine Learning Repository。569 例样本(357 良性 / 212 恶性),30 个由 FNA 图像计算的细胞核特征。
复现范围:
- ✅ 覆盖:5 种核心 ML 模型(Logistic Regression、KNN、SVM、Random Forest、XGBoost)
- ✅ 覆盖:分层 5 折交叉验证 + 80/20 测试集评估
- ✅ 覆盖:SHAP 特征重要性分析
- ❌ 未覆盖:合成数据生成(Gaussian Copula、CTGAN、Copula GAN、TVAE)
- ❌ 未覆盖:ANN、H2O AutoML/DNN 深度学习模型
- ❌ 未覆盖:DL-based multi-model ensemble 策略
方法差异:原论文和 AI 均使用标准化预处理 + 分层 5 折交叉验证 + 80/20 切分。随机种子不同,导致训练/测试集组成有差异。原论文额外测试了 AutoML(H2OXGBoost、H2O DNN)。
执行记录
| 指标 | 数值 |
|---|---|
| 总耗时 | 8 分钟(456 秒) |
| 产出文件数 | 15 个 |
| 可视化图表 | 6 张 |
| 训练模型数 | 5 种 |
| 数据集样本 | 569 例 |
| 特征数 | 30 个 |
| 积分消耗 | 107 积分(¥1.07) |
复现结果对比
模型性能对比(测试集)
| 模型 | 原论文准确率(Table 4) | AI 准确率 | 原论文 AUC(Table 4) | AI AUC | 原论文 Precision | AI Precision |
|---|---|---|---|---|---|---|
| Logistic Regression | 0.9737 | 0.9649 | 1.000 | 0.9960 | 0.9697 | 0.9750 |
| KNN | 0.9737 | 0.9561 | 1.000 | 0.9823 | 0.9741 | 0.9744 |
| SVM | 0.9474 | 0.9737 | 0.997 | 0.9947 | 0.9403 | 1.0000 |
| Random Forest | 0.9474 | 0.9737 | 1.000 | 0.9929 | 0.9383 | 1.0000 |
| XGBoost | 0.9474 | 0.9737 | 1.000 | 0.9940 | 0.9403 | 1.0000 |
注:加粗表示该指标上更优的一方。原论文数据均来自 Table 4(原始数据集,非合成数据)。
交叉验证对比
| 模型 | 原论文 SCV Test(Table 4) | AI CV Accuracy |
|---|---|---|
| Logistic Regression | 0.9646 | 0.9736 |
| KNN | 0.9823 | 0.9670 |
| SVM | 0.9526 | 0.9714 |
| Random Forest | 0.9646 | 0.9648 |
| XGBoost | 0.9912 | 0.9670 |
Recall 和 F1 对比
| 模型 | 原论文 Recall(Table 4) | AI Recall | 原论文 F1(Table 4) | AI F1 |
|---|---|---|---|---|
| Logistic Regression | 0.9742 | 0.9286 | 0.9719 | 0.9512 |
| KNN | 0.9692 | 0.9048 | 0.9716 | 0.9383 |
| SVM | 0.9484 | 0.9286 | 0.9440 | 0.9630 |
| Random Forest | 0.9534 | 0.9286 | 0.9445 | 0.9630 |
| XGBoost | 0.9484 | 0.9286 | 0.9440 | 0.9630 |
SHAP 特征重要性 Top 10
| 排名 | 特征 | SHAP 值 | 说明 |
|---|---|---|---|
| 1 | worst concave points | 1.055 | 细胞核最差凹点数 |
| 2 | worst texture | 1.018 | 细胞核最差纹理 |
| 3 | mean concave points | 0.992 | 细胞核平均凹点数 |
| 4 | area error | 0.958 | 面积测量误差 |
| 5 | worst concavity | 0.801 | 细胞核最差凹度 |
| 6 | worst area | 0.763 | 细胞核最差面积 |
| 7 | worst perimeter | 0.614 | 细胞核最差周长 |
| 8 | mean texture | 0.548 | 细胞核平均纹理 |
| 9 | compactness error | 0.517 | 紧凑度测量误差 |
| 10 | worst radius | 0.509 | 细胞核最差半径 |
与病理学一致性:凹点数和凹度特征排名最前,恶性肿瘤细胞核边界不规则程度高于良性,这与经典的 FNA 诊断标准吻合。"worst"(最大值)特征比"mean"特征更具区分力。
差距原因分析
-
SVM/RF/XGBoost AI 反超:AI 在这三个模型上准确率高出 2.63%,Precision 达到 1.000。可能原因:(a)随机种子不同导致测试集恰好更有利;(b)AI 的标准化参数拟合方式与原论文有细微差异。在 569 样本的小数据集上,2-3 个样本的分类差异即可造成 2% 以上的准确率波动。
-
KNN AI 略低:KNN 对 K 值选择和距离度量方式敏感。原论文可能使用了更精细的 K 值搜索,或不同的距离权重方案。
-
Recall 普遍偏低:AI 的 Recall 全面低于原论文(最大差距 6.44%),说明 AI 的模型倾向于保守预测(更少将良性误判为恶性,但也漏掉了更多恶性样本)。这可能与决策阈值默认设置有关。
-
AUC 差异小:所有模型的 AUC 差距在 0.7% 以内,说明模型的综合排序能力非常接近,差异主要体现在阈值选择上。
AI 做到了什么
- 8 分钟完成 5 种模型的完整训练、评估和对比
- SVM、RF、XGBoost 准确率和 Precision 超越原论文
- SHAP 分析补充了原论文未包含的特征解释性分析
- 生成 6 张可复现的可视化图表
- 所有代码、数据和中间结果可下载验证
AI 没做到什么
- 未复现合成数据部分(Gaussian Copula、TVAE 数据增强),原论文用此将训练集从 569 扩展到 10,000
- 未复现 ANN、H2O AutoML 等深度学习模型
- 未做超参数精细调优(如 KNN 的 K 值搜索)——这可能是 KNN 性能偏低的原因
- Recall 全面偏低,未做阈值优化以平衡 Precision-Recall 权衡
- 未对原论文的 Phase 2/3(合成数据 + DL 集成)进行复现
- 未做统计显著性检验来判断性能差异是否具有统计意义
结论
在 WBCD 经典数据集上,AI 用 8 分钟完成了原论文 Phase 1 的核心 ML 建模工作,并在 SVM/RF/XGBoost 三个模型的准确率上超越原论文。同时 AI 补充了原论文未包含的 SHAP 解释性分析,揭示 worst concave points 为最强预测特征。
但 AI 在 KNN 性能、Recall 指标和合成数据策略上不及原论文。这反映了一个规律:AI 擅长快速搭建 baseline 并在标准化流程上达到甚至超越人工水平,但方法创新(如合成数据增强)和细粒度调优仍需研究者主导。
