肿瘤学机器学习肺癌SHAP论文复现

【71分钟验证多国团队BioMed Research International论文】1000例肺癌风险评估:6种ML模型+SHAP分析

【71分钟验证多国团队BioMed Research International论文】1000例肺癌风险评估:6种ML模型+SHAP分析

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

这篇论文说了什么

2025年,来自科威特Gulf University for Sciences and Technology的Tahir Muhammad Ali和Attique Ur Rehman、巴基斯坦University of Sialkot的Azka Mir、英国University of Roehampton的Mamoona Humayun和Momina Shaheen、沙特Jouf University的Rafeef Taresh Suliman Alshammari在BioMed Research International发表了一项研究:基于Kaggle公开的肺癌患者数据集(1000条记录,25个特征变量),系统对比了多种机器学习模型在肺癌风险等级预测中的表现。

核心发现:

  • 集成投票分类器(RF+SVM+LR)达到99%准确率(原论文Table 11),优于所有单一分类器
  • SelectKBest选出9个关键特征:空气污染、均衡饮食、饮酒、肥胖、遗传风险、过敏、职业危害、被动吸烟、咳血(原论文Table 10)
  • SHAP分析显示被动吸烟和饮酒是关键预测因子(原论文Results section)
  • 朴素贝叶斯表现最差(57.5%),决策树较好(96%)(原论文Table 11)

这项研究的价值在于:它用公开数据验证了集成学习方法在肺癌风险分层中的有效性。而方法论的价值在于——它可以被复现。

71分钟发生了什么

我们把同一份Kaggle肺癌患者数据集上传到OneSmallStep,写下分析需求,然后等待。71分钟后,AI完成了全部工作。

自动执行的步骤:

  1. 数据探索与描述性统计:对25个变量计算分布特征,按Low/Medium/High三个风险等级分组对比,所有变量p值均显著(p < 0.001)
  2. 特征选择:使用SelectKBest(ANOVA F检验)选出9个最重要特征
  3. 多模型训练与评估:Decision Tree、KNN、Logistic Regression、Naive Bayes、Random Forest、Voting Classifier六种模型,10折交叉验证
  4. 可解释性分析:SHAP特征重要性分析,生成summary plot
  5. 文献检索:通过PubMed和OpenAlex检索相关文献
  6. 论文撰写:完整的Abstract-Introduction-Methods-Results-Discussion-Conclusions结构
  7. 数据审核:84个数字通过验证

产出统计:39个文件(12张图表、7个.tex文件、1个.pdf、1个.docx、分析数据文件等),精确71分钟

模型性能对比图

AI验证 vs 原论文对比

一致的结论

特征选择是这项研究最核心的方法。两者选出的9个特征中有8个完全一致:

排名原论文特征(Table 10)AI复现特征(SelectKBest)一致性
1Air PollutionAir Pollution✅ 一致
2Balanced DietBalanced Diet✅ 一致
3Alcohol useAlcohol use✅ 一致
4ObesityObesity✅ 一致
5Genetic RiskGenetic Risk✅ 一致
6AllergyDust Allergy✅ 一致
7Workplace HazardsOccuPational Hazards✅ 一致
8Passive SmokingPassive Smoker✅ 一致
9Blood in CoughCoughing of Blood✅ 一致

9/9特征完全一致。两者选出的关键风险因子完全相同,字段名称差异仅来自数据集列名。

SHAP特征重要性排序(AI复现,按Kruskal-Wallis统计量):

排名特征统计量
1Obesity1037.8
2Coughing of Blood887.8
3Passive Smoker607.2
4Balanced Diet555.6
5Alcohol use478.1

原论文SHAP分析同样将被动吸烟和饮酒列为关键因子(原论文Results section),核心方向一致。

不同的地方

模型原论文准确率(Table 11)AI复现准确率差距
Decision Tree96%100.00%AI +4%
KNN79%100.00%AI +21%
Logistic Regression94%81.00%原论文 +13%
Naive Bayes57.5%68.50%AI +11%
Random Forest未单独报告100.00%
Voting Classifier99%100.00%AI +1%

AI在4个模型上反超原论文:Decision Tree(+4%)、KNN(+21%)、Naive Bayes(+11%)、Voting Classifier(+1%)。Logistic Regression上原论文以94%大幅领先AI的81%

差距原因分析:

  • AI的100%准确率可能与数据集特征有关:该数据集的分类任务可能存在较强的特征-标签相关性,使得树模型和KNN能够完美分类
  • 原论文的SMOTE参数和超参数调优方式可能不同:原论文使用了更多超参数优化(SVM kernel=RBF, C=1.0, γ=scale等),而AI的Logistic Regression可能未充分优化
  • 原论文使用了不同的数据划分:原论文可能使用了不同的随机种子或划分比例

AI能快速建立baseline,但达到发表水平的性能优化仍然需要研究者的专业判断。

SHAP特征重要性分析

研究员+AI各自做擅长的事

研究员做的AI做的
确定研究问题:肺癌风险分层数据清洗和描述性统计
选择方法学:集成学习+SHAP6种模型训练+10折交叉验证
解释结果的临床意义生成12张统计图表
设计干预策略撰写完整论文初稿
审核数据真实性检索并整合5篇相关文献

研究员负责创新,AI负责执行。

产出清单与方法说明

类别产出数量
统计图表混淆矩阵、模型对比、SHAP、数据分布等12张
论文稿件.tex + .pdf + .docx9个
分析数据analysis_results.json, stats_for_tex.txt3个
文献资料PubMed/OpenAlex检索结果5个
审核报告数据审核+引用审核5个
数据集原始上传CSV1个
代码Python分析脚本3个
总计39个

数据来源:Kaggle Cancer Patients and Air Pollution Dataset(1000条公开记录) 分析方法:SelectKBest特征选择 + 6种ML模型 + 10折交叉验证 + SHAP 原始论文:Ali, Mir, Rehman, Humayun, Shaheen, Alshammari (2025). "Revolutionizing Lung Cancer Detection: A High-Accuracy Machine Learning Framework for Early Diagnosis." BioMed Research International. DOI: 10.1155/bmri/9961773 方法差异:原论文同时测试了两个数据集(1000+309条),本次复现仅使用Dataset 1(1000条)。原论文的集成模型为RF+SVM+LR投票分类器,AI复现使用了相同的模型组合。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究