透明报告论文复现乳腺癌SHAP机器学习LightGBM

复现报告:Zhu et al. 乳腺癌SHAP-RF-RFE特征选择研究 — 核心Top 4诊断特征完全一致,交叉验证仅差0.0004

复现报告:Zhu et al. 乳腺癌SHAP-RF-RFE特征选择研究 — 核心Top 4诊断特征完全一致,交叉验证仅差0.0004

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Zhu, J., Zhao, Z., Yin, B., Wu, C., Yin, C., Chen, R. & Ding, Y. (2025). An integrated approach of feature selection and machine learning for early detection of breast cancer. Scientific Reports, 15, 13015.

  • DOI:10.1038/s41598-025-97685-x
  • 作者机构:广州大学实验中心(Jing Zhu)、广州大学电子与通信工程学院(Zhenhang Zhao, Canpeng Wu)、广州铁路职业技术学院信息工程学院(Bangzheng Yin)、邵阳市中心医院(Chan Yin, Rong Chen)、广州医科大学生物医学工程学院(Youde Ding)
  • 数据集:Wisconsin Diagnostic Breast Cancer (WDBC),UCI Machine Learning Repository,569例(良性357例,恶性212例),30个细胞核形态特征
  • 核心方法:SHAP-RF-RFE 特征选择 + PSO 超参数优化 + 5种分类模型

复现范围

覆盖未覆盖
5种分类模型(RF, LightGBM, SVM, KNN, LR)SHAP-RF-RFE 递归特征消除(每模型独立筛选)
Borderline-SMOTE 类别平衡PSO 粒子群优化超参数
10-fold 交叉验证每模型使用不同特征子集(12-28个)
特征重要性分析原论文的精细化 SHAP 值排序
ROC 曲线 + 混淆矩阵文献对比表(Table 3)

方法差异:原论文对每个模型分别进行 SHAP-RF-RFE 特征选择(RF用28特征、SVM用18特征、KNN用12特征等),并使用 PSO 优化 LightGBM 超参数。AI 复现使用全部30个特征训练所有模型,未做逐模型特征筛选和PSO优化。

执行记录

指标数值
总耗时60 分钟(3584秒)
产出文件38 个
对话轮次87 条消息
统计图表5 张(混淆矩阵、特征重要性、模型性能、ROC曲线、研究流程)
Python 脚本5 个
LaTeX 论文章节6 个(摘要、引言、方法、结果、讨论、结论)
数据审核通过率134/150(89.3%,16个候选均为无害的文献引用数字或LaTeX格式参数)
积分消耗863 积分(¥8.63)

复现结果对比

特征重要性排序

排名原论文 SHAP Top 5(SHAP分析章节)AI Random Forest 特征重要性 Top 5一致性
1radius_worstarea_worst (0.1824)✅ 互在对方 top 4
2area_worstperimeter_worst (0.0866)✅ 互在对方 top 4
3perimeter_worstconcave_points_worst (0.0843)✅ 互在对方 top 4
4concave_points_worstradius_worst (0.0796)✅ 互在对方 top 4
5smoothness_worstperimeter_mean (0.0768)❌ 原论文第5为smoothness_worst

结论Top 4 特征完全重叠(radius_worst, area_worst, perimeter_worst, concave_points_worst),仅排序略有差异。这四个特征均为肿瘤细胞核"最坏值"(worst)形态测量,反映了恶性肿瘤细胞核在最极端区域的形态异常。排序差异源于度量方式不同:原论文使用 SHAP 值,AI 使用 Gini 特征重要性。

模型性能对比

模型原论文准确率AI准确率原论文AUCAI AUC原论文CVAI CV数据来源
LightGBM99.00%100.00%0.9870.9800.98080.9804原论文 Table 1
Random Forest98.50%100.00%0.9810.9760.97430.9762原论文 Table 1
SVM98.00%97.76%0.9810.9720.97430.9720原论文 Table 1
KNN98.50%97.90%0.9850.9620.95720.9622原论文 Table 1
LR97.50%97.06%0.9750.9650.96360.9650原论文 Table 1

注:加粗表示该指标较优的一方。原论文使用 65:35 训练测试划分。

分析

  1. AI 测试集准确率偏高:RF 和 LightGBM 均达到 100%,但交叉验证分数(0.976/0.980)更接近原论文。测试集 100% 可能是 SMOTE 过采样导致的乐观估计,交叉验证是更可靠的泛化指标。

  2. 交叉验证高度一致:LightGBM CV 差距仅 0.0004(0.9808 vs 0.9804),RF CV AI 略优(0.9762 vs 0.9743)。这说明在相同数据集上,即使不做精细特征选择,基础模型的泛化能力已经非常接近。

  3. AUC 原论文整体更优:5个模型的 AUC 原论文均高于 AI,差距在 0.005-0.023 之间。原因是原论文的 SHAP-RF-RFE 为每个模型选择了最优特征子集(SVM仅用18特征、KNN仅用12特征),减少了噪声特征的干扰。

  4. SVM 和 KNN 差距最大:这两个模型对特征维度最敏感。原论文的精选特征(SVM 18个、KNN 12个)显著优于 AI 使用全部30个特征的结果,直接验证了 SHAP-RF-RFE 方法的实际价值。

混淆矩阵对比(AI 复现结果)

模型TPFNFPTN灵敏度特异度
Random Forest全部正确00全部正确1.0001.000
LightGBM全部正确00全部正确1.0001.000
SVM0.9800.975
KNN1.0000.960
LR0.9690.972

原论文混淆矩阵(Figure 4):RF (TP=74, FN=3, FP=0, TN=123),LightGBM (TP=75, FN=2, FP=0, TN=123),SVM (TP=76, FN=1, FP=3, TN=120)。原论文的RF有3个假阴性,而AI的RF无误分类(但可能受SMOTE影响)。

AI 做到了什么

  • ✅ 在相同数据集上训练了5种分类器,交叉验证结果与原论文高度一致(最大差距 0.005)
  • ✅ 识别出与原论文高度重叠的 Top 4 关键诊断特征
  • ✅ 生成完整的统计图表(ROC曲线、混淆矩阵、特征重要性图)
  • ✅ 撰写完整 LaTeX 论文初稿(含文献检索和参考文献管理)
  • ✅ 自动审核 134 个数据点的一致性
  • ✅ 全程 60 分钟,无人工干预

AI 没做到什么

  • 未实现 SHAP-RF-RFE 递归特征消除:原论文的核心方法创新——为每个模型独立筛选最优特征子集——AI 未复现。这导致 SVM 和 KNN 性能低于原论文。
  • 未实现 PSO 超参数优化:原论文使用粒子群优化搜索 LightGBM 最优参数(如 learning_rate=0.27, max_depth=10, n_estimators=1000),AI 使用默认参数。
  • 未做逐模型特征数量对比:原论文展示了不同特征数量(12-28个)对各模型的影响,这是理解 SHAP-RF-RFE 价值的关键实验。
  • SHAP 分析深度不足:原论文使用 SHAP 值做特征排序,AI 使用的是 Gini 特征重要性,两者虽然高度相关但不完全等价。
  • 未复现文献对比:原论文 Table 3 对比了历史上多个研究的性能,AI 论文未包含此类系统对比。

结论

在 Wisconsin 乳腺癌诊断数据集上,AI 在 60 分钟内建立了与原论文发表水平高度接近的分析 baseline。交叉验证指标几乎相同(LightGBM CV 仅差 0.0004),核心诊断特征高度一致(Top 4 完全重叠)。

AI 未能复现的部分——SHAP-RF-RFE 特征选择和 PSO 超参数优化——恰恰是原论文的方法学创新点。SVM 和 KNN 在精选特征后性能提升的结果,反向验证了 Zhu 等人提出的 SHAP-RF-RFE 方法的实际价值。

这再次印证了一个模式:AI 能快速完成 80% 的执行工作,但剩下 20% 的方法创新和精细优化,需要研究者的专业判断。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究