复现报告：WBCD乳腺癌多模型分类 — SVM/RF/XGBoost反超原论文准确率，8分钟完成5模型训练

复现目标

原论文：Ahmed KA, Humaira I, Khan AR, Hasan MS, Islam M, Roy A, Karim M, Uddin M, Mohammad A, Xames MD. Advancing breast cancer prediction: Comparative analysis of ML models and deep learning-based multi-model ensembles on original and synthetic datasets. PLoS ONE. 2025;20(6):e0326221.

作者机构：Military Institute of Science and Technology (MIST)、Bangladesh University of Engineering and Technology (BUET)、University of Dhaka，均位于孟加拉国达卡。

数据集：Wisconsin Breast Cancer Diagnostic (WBCD)，UCI Machine Learning Repository。569 例样本（357 良性 / 212 恶性），30 个由 FNA 图像计算的细胞核特征。

复现范围：

✅ 覆盖：5 种核心 ML 模型（Logistic Regression、KNN、SVM、Random Forest、XGBoost）
✅ 覆盖：分层 5 折交叉验证 + 80/20 测试集评估
✅ 覆盖：SHAP 特征重要性分析
❌ 未覆盖：合成数据生成（Gaussian Copula、CTGAN、Copula GAN、TVAE）
❌ 未覆盖：ANN、H2O AutoML/DNN 深度学习模型
❌ 未覆盖：DL-based multi-model ensemble 策略

方法差异：原论文和 AI 均使用标准化预处理 + 分层 5 折交叉验证 + 80/20 切分。随机种子不同，导致训练/测试集组成有差异。原论文额外测试了 AutoML（H2OXGBoost、H2O DNN）。

执行记录

指标	数值
总耗时	8 分钟（456 秒）
产出文件数	15 个
可视化图表	6 张
训练模型数	5 种
数据集样本	569 例
特征数	30 个
积分消耗	107 积分（¥1.07）

复现结果对比

模型性能对比（测试集）

模型	原论文准确率（Table 4）	AI 准确率	原论文 AUC（Table 4）	AI AUC	原论文 Precision	AI Precision
Logistic Regression	0.9737	0.9649	1.000	0.9960	0.9697	0.9750
KNN	0.9737	0.9561	1.000	0.9823	0.9741	0.9744
SVM	0.9474	0.9737	0.997	0.9947	0.9403	1.0000
Random Forest	0.9474	0.9737	1.000	0.9929	0.9383	1.0000
XGBoost	0.9474	0.9737	1.000	0.9940	0.9403	1.0000

注：加粗表示该指标上更优的一方。原论文数据均来自 Table 4（原始数据集，非合成数据）。

交叉验证对比

模型	原论文 SCV Test（Table 4）	AI CV Accuracy
Logistic Regression	0.9646	0.9736
KNN	0.9823	0.9670
SVM	0.9526	0.9714
Random Forest	0.9646	0.9648
XGBoost	0.9912	0.9670

Recall 和 F1 对比

模型	原论文 Recall（Table 4）	AI Recall	原论文 F1（Table 4）	AI F1
Logistic Regression	0.9742	0.9286	0.9719	0.9512
KNN	0.9692	0.9048	0.9716	0.9383
SVM	0.9484	0.9286	0.9440	0.9630
Random Forest	0.9534	0.9286	0.9445	0.9630
XGBoost	0.9484	0.9286	0.9440	0.9630

SHAP 特征重要性 Top 10

排名	特征	SHAP 值	说明
1	worst concave points	1.055	细胞核最差凹点数
2	worst texture	1.018	细胞核最差纹理
3	mean concave points	0.992	细胞核平均凹点数
4	area error	0.958	面积测量误差
5	worst concavity	0.801	细胞核最差凹度
6	worst area	0.763	细胞核最差面积
7	worst perimeter	0.614	细胞核最差周长
8	mean texture	0.548	细胞核平均纹理
9	compactness error	0.517	紧凑度测量误差
10	worst radius	0.509	细胞核最差半径

与病理学一致性：凹点数和凹度特征排名最前，恶性肿瘤细胞核边界不规则程度高于良性，这与经典的 FNA 诊断标准吻合。"worst"（最大值）特征比"mean"特征更具区分力。

差距原因分析

SVM/RF/XGBoost AI 反超：AI 在这三个模型上准确率高出 2.63%，Precision 达到 1.000。可能原因：（a）随机种子不同导致测试集恰好更有利；（b）AI 的标准化参数拟合方式与原论文有细微差异。在 569 样本的小数据集上，2-3 个样本的分类差异即可造成 2% 以上的准确率波动。
KNN AI 略低：KNN 对 K 值选择和距离度量方式敏感。原论文可能使用了更精细的 K 值搜索，或不同的距离权重方案。
Recall 普遍偏低：AI 的 Recall 全面低于原论文（最大差距 6.44%），说明 AI 的模型倾向于保守预测（更少将良性误判为恶性，但也漏掉了更多恶性样本）。这可能与决策阈值默认设置有关。
AUC 差异小：所有模型的 AUC 差距在 0.7% 以内，说明模型的综合排序能力非常接近，差异主要体现在阈值选择上。

AI 做到了什么

8 分钟完成 5 种模型的完整训练、评估和对比
SVM、RF、XGBoost 准确率和 Precision 超越原论文
SHAP 分析补充了原论文未包含的特征解释性分析
生成 6 张可复现的可视化图表
所有代码、数据和中间结果可下载验证

AI 没做到什么

未复现合成数据部分（Gaussian Copula、TVAE 数据增强），原论文用此将训练集从 569 扩展到 10,000
未复现 ANN、H2O AutoML 等深度学习模型
未做超参数精细调优（如 KNN 的 K 值搜索）——这可能是 KNN 性能偏低的原因
Recall 全面偏低，未做阈值优化以平衡 Precision-Recall 权衡
未对原论文的 Phase 2/3（合成数据 + DL 集成）进行复现
未做统计显著性检验来判断性能差异是否具有统计意义

结论

在 WBCD 经典数据集上，AI 用 8 分钟完成了原论文 Phase 1 的核心 ML 建模工作，并在 SVM/RF/XGBoost 三个模型的准确率上超越原论文。同时 AI 补充了原论文未包含的 SHAP 解释性分析，揭示 worst concave points 为最强预测特征。

但 AI 在 KNN 性能、Recall 指标和合成数据策略上不及原论文。这反映了一个规律：AI 擅长快速搭建 baseline 并在标准化流程上达到甚至超越人工水平，但方法创新（如合成数据增强）和细粒度调优仍需研究者主导。

查看完整AI分析过程 →