复现目标
原论文:Zhu, J., Zhao, Z., Yin, B., Wu, C., Yin, C., Chen, R. & Ding, Y. (2025). An integrated approach of feature selection and machine learning for early detection of breast cancer. Scientific Reports, 15, 13015.
- DOI:10.1038/s41598-025-97685-x
- 作者机构:广州大学实验中心(Jing Zhu)、广州大学电子与通信工程学院(Zhenhang Zhao, Canpeng Wu)、广州铁路职业技术学院信息工程学院(Bangzheng Yin)、邵阳市中心医院(Chan Yin, Rong Chen)、广州医科大学生物医学工程学院(Youde Ding)
- 数据集:Wisconsin Diagnostic Breast Cancer (WDBC),UCI Machine Learning Repository,569例(良性357例,恶性212例),30个细胞核形态特征
- 核心方法:SHAP-RF-RFE 特征选择 + PSO 超参数优化 + 5种分类模型
复现范围:
| 覆盖 | 未覆盖 |
|---|---|
| 5种分类模型(RF, LightGBM, SVM, KNN, LR) | SHAP-RF-RFE 递归特征消除(每模型独立筛选) |
| Borderline-SMOTE 类别平衡 | PSO 粒子群优化超参数 |
| 10-fold 交叉验证 | 每模型使用不同特征子集(12-28个) |
| 特征重要性分析 | 原论文的精细化 SHAP 值排序 |
| ROC 曲线 + 混淆矩阵 | 文献对比表(Table 3) |
方法差异:原论文对每个模型分别进行 SHAP-RF-RFE 特征选择(RF用28特征、SVM用18特征、KNN用12特征等),并使用 PSO 优化 LightGBM 超参数。AI 复现使用全部30个特征训练所有模型,未做逐模型特征筛选和PSO优化。
执行记录
| 指标 | 数值 |
|---|---|
| 总耗时 | 60 分钟(3584秒) |
| 产出文件 | 38 个 |
| 对话轮次 | 87 条消息 |
| 统计图表 | 5 张(混淆矩阵、特征重要性、模型性能、ROC曲线、研究流程) |
| Python 脚本 | 5 个 |
| LaTeX 论文章节 | 6 个(摘要、引言、方法、结果、讨论、结论) |
| 数据审核通过率 | 134/150(89.3%,16个候选均为无害的文献引用数字或LaTeX格式参数) |
| 积分消耗 | 863 积分(¥8.63) |
复现结果对比
特征重要性排序
| 排名 | 原论文 SHAP Top 5(SHAP分析章节) | AI Random Forest 特征重要性 Top 5 | 一致性 |
|---|---|---|---|
| 1 | radius_worst | area_worst (0.1824) | ✅ 互在对方 top 4 |
| 2 | area_worst | perimeter_worst (0.0866) | ✅ 互在对方 top 4 |
| 3 | perimeter_worst | concave_points_worst (0.0843) | ✅ 互在对方 top 4 |
| 4 | concave_points_worst | radius_worst (0.0796) | ✅ 互在对方 top 4 |
| 5 | smoothness_worst | perimeter_mean (0.0768) | ❌ 原论文第5为smoothness_worst |
结论:Top 4 特征完全重叠(radius_worst, area_worst, perimeter_worst, concave_points_worst),仅排序略有差异。这四个特征均为肿瘤细胞核"最坏值"(worst)形态测量,反映了恶性肿瘤细胞核在最极端区域的形态异常。排序差异源于度量方式不同:原论文使用 SHAP 值,AI 使用 Gini 特征重要性。
模型性能对比
| 模型 | 原论文准确率 | AI准确率 | 原论文AUC | AI AUC | 原论文CV | AI CV | 数据来源 |
|---|---|---|---|---|---|---|---|
| LightGBM | 99.00% | 100.00% | 0.987 | 0.980 | 0.9808 | 0.9804 | 原论文 Table 1 |
| Random Forest | 98.50% | 100.00% | 0.981 | 0.976 | 0.9743 | 0.9762 | 原论文 Table 1 |
| SVM | 98.00% | 97.76% | 0.981 | 0.972 | 0.9743 | 0.9720 | 原论文 Table 1 |
| KNN | 98.50% | 97.90% | 0.985 | 0.962 | 0.9572 | 0.9622 | 原论文 Table 1 |
| LR | 97.50% | 97.06% | 0.975 | 0.965 | 0.9636 | 0.9650 | 原论文 Table 1 |
注:加粗表示该指标较优的一方。原论文使用 65:35 训练测试划分。
分析:
-
AI 测试集准确率偏高:RF 和 LightGBM 均达到 100%,但交叉验证分数(0.976/0.980)更接近原论文。测试集 100% 可能是 SMOTE 过采样导致的乐观估计,交叉验证是更可靠的泛化指标。
-
交叉验证高度一致:LightGBM CV 差距仅 0.0004(0.9808 vs 0.9804),RF CV AI 略优(0.9762 vs 0.9743)。这说明在相同数据集上,即使不做精细特征选择,基础模型的泛化能力已经非常接近。
-
AUC 原论文整体更优:5个模型的 AUC 原论文均高于 AI,差距在 0.005-0.023 之间。原因是原论文的 SHAP-RF-RFE 为每个模型选择了最优特征子集(SVM仅用18特征、KNN仅用12特征),减少了噪声特征的干扰。
-
SVM 和 KNN 差距最大:这两个模型对特征维度最敏感。原论文的精选特征(SVM 18个、KNN 12个)显著优于 AI 使用全部30个特征的结果,直接验证了 SHAP-RF-RFE 方法的实际价值。
混淆矩阵对比(AI 复现结果)
| 模型 | TP | FN | FP | TN | 灵敏度 | 特异度 |
|---|---|---|---|---|---|---|
| Random Forest | 全部正确 | 0 | 0 | 全部正确 | 1.000 | 1.000 |
| LightGBM | 全部正确 | 0 | 0 | 全部正确 | 1.000 | 1.000 |
| SVM | — | — | — | — | 0.980 | 0.975 |
| KNN | — | — | — | — | 1.000 | 0.960 |
| LR | — | — | — | — | 0.969 | 0.972 |
原论文混淆矩阵(Figure 4):RF (TP=74, FN=3, FP=0, TN=123),LightGBM (TP=75, FN=2, FP=0, TN=123),SVM (TP=76, FN=1, FP=3, TN=120)。原论文的RF有3个假阴性,而AI的RF无误分类(但可能受SMOTE影响)。
AI 做到了什么
- ✅ 在相同数据集上训练了5种分类器,交叉验证结果与原论文高度一致(最大差距 0.005)
- ✅ 识别出与原论文高度重叠的 Top 4 关键诊断特征
- ✅ 生成完整的统计图表(ROC曲线、混淆矩阵、特征重要性图)
- ✅ 撰写完整 LaTeX 论文初稿(含文献检索和参考文献管理)
- ✅ 自动审核 134 个数据点的一致性
- ✅ 全程 60 分钟,无人工干预
AI 没做到什么
- ❌ 未实现 SHAP-RF-RFE 递归特征消除:原论文的核心方法创新——为每个模型独立筛选最优特征子集——AI 未复现。这导致 SVM 和 KNN 性能低于原论文。
- ❌ 未实现 PSO 超参数优化:原论文使用粒子群优化搜索 LightGBM 最优参数(如 learning_rate=0.27, max_depth=10, n_estimators=1000),AI 使用默认参数。
- ❌ 未做逐模型特征数量对比:原论文展示了不同特征数量(12-28个)对各模型的影响,这是理解 SHAP-RF-RFE 价值的关键实验。
- ❌ SHAP 分析深度不足:原论文使用 SHAP 值做特征排序,AI 使用的是 Gini 特征重要性,两者虽然高度相关但不完全等价。
- ❌ 未复现文献对比:原论文 Table 3 对比了历史上多个研究的性能,AI 论文未包含此类系统对比。
结论
在 Wisconsin 乳腺癌诊断数据集上,AI 在 60 分钟内建立了与原论文发表水平高度接近的分析 baseline。交叉验证指标几乎相同(LightGBM CV 仅差 0.0004),核心诊断特征高度一致(Top 4 完全重叠)。
AI 未能复现的部分——SHAP-RF-RFE 特征选择和 PSO 超参数优化——恰恰是原论文的方法学创新点。SVM 和 KNN 在精选特征后性能提升的结果,反向验证了 Zhu 等人提出的 SHAP-RF-RFE 方法的实际价值。
这再次印证了一个模式:AI 能快速完成 80% 的执行工作,但剩下 20% 的方法创新和精细优化,需要研究者的专业判断。
