透明报告论文复现肺癌机器学习SHAP

复现报告:Ali et al. 肺癌ML框架 — 特征选择9/9一致,4模型准确率反超原论文

复现报告:Ali et al. 肺癌ML框架 — 特征选择9/9一致,4模型准确率反超原论文

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Ali, Mir, Rehman, Humayun, Shaheen, Alshammari (2025). "Revolutionizing Lung Cancer Detection: A High-Accuracy Machine Learning Framework for Early Diagnosis." BioMed Research International. DOI: 10.1155/bmri/9961773

作者机构

  • Tahir Muhammad Ali, Attique Ur Rehman — Gulf University for Sciences and Technology, Kuwait
  • Azka Mir — University of Sialkot, Pakistan
  • Mamoona Humayun, Momina Shaheen — University of Roehampton, London, UK
  • Rafeef Taresh Suliman Alshammari — Jouf University, Saudi Arabia

数据集:Kaggle Cancer Patients and Air Pollution Dataset(1000条患者记录,25个特征,3个风险等级:Low/Medium/High)

复现范围

  • ✅ SelectKBest特征选择(ANOVA F检验,k=9)
  • ✅ 多模型训练(Decision Tree、KNN、Logistic Regression、Naive Bayes、Random Forest、Voting Classifier)
  • ✅ 10折交叉验证
  • ✅ SHAP特征重要性分析
  • ❌ 未复现Dataset 2(309条Survey数据集)
  • ❌ 未使用SMOTE(原论文使用SMOTE,AI使用class weighting)

执行记录

指标数值
精确耗时71分钟(17:49→18:59)
产出文件数39个
数据审核84个数字验证通过
统计图表12张
论文章节7个.tex文件 + PDF + DOCX
文献检索5次(PubMed + OpenAlex)

复现结果对比

特征选择对比(SelectKBest, k=9)

序号原论文特征(Table 10)AI复现特征判定
1Air PollutionAir Pollution✅ 一致
2Balanced DietBalanced Diet✅ 一致
3Alcohol consumptionAlcohol use✅ 一致
4ObesityObesity✅ 一致
5Genetic RiskGenetic Risk✅ 一致
6AllergyDust Allergy✅ 一致
7Workplace HazardsOccuPational Hazards✅ 一致
8Passive SmokingPassive Smoker✅ 一致
9Blood in CoughCoughing of Blood✅ 一致

特征选择完全一致(9/9)。字段名称略有差异但指向相同变量。

注:原论文Table 10列出的第9个特征为"Blood in cough"(咳血),与AI选出的"Coughing of Blood"指向同一变量。此前对照时误将原论文特征记为"Fatigue"(来源于原论文SHAP分析的不同特征集),经核实Table 10后修正。

模型性能对比

模型原论文准确率(Table 11)AI准确率AI精确率AI召回率AI F1对比
Decision Tree96%100.00%100.00%100.00%100.00%AI +4%
KNN79%100.00%100.00%100.00%100.00%AI +21%
Logistic Regression94%81.00%81.48%81.00%81.09%原论文 +13%
Naive Bayes57.5%68.50%67.37%68.50%65.02%AI +11%
Random Forest未单独报告100.00%100.00%100.00%100.00%
Voting Classifier99%100.00%100.00%100.00%100.00%AI +1%

原论文仅报告了各模型的准确率,未报告精确率/召回率/F1(集成模型除外:precision=94%, recall=94%, F1=94%)。

:原论文集成模型在交叉验证中准确率为0.991 ± 0.009(原论文Results section),AI交叉验证准确率也达到100%。原论文使用的测试条件为SMOTE + SelectKBest(9特征),AI使用class weighting替代SMOTE。

特征重要性对比(SHAP / Kruskal-Wallis)

排名原论文SHAP关键因子AI复现(Kruskal-Wallis统计量)
1Passive SmokingObesity (1037.8)
2WheezingCoughing of Blood (887.8)
3Alcohol usePassive Smoker (607.2)
4Coughing BloodBalanced Diet (555.6)
5Alcohol use (478.1)

Passive Smoker和Alcohol use在两个分析中都排名前列,方向一致。排序差异主要来自分析方法不同(原论文用SHAP值,AI用Kruskal-Wallis检验统计量)。

描述性统计对比

变量原论文(Figure/Table)AI复现判定
样本量10001000
风险等级分布Low=303, Medium=332, High=365Low=303, Medium=332, High=365✅ 完全一致
年龄均值未明确报告37.17 ± 12.01

差距原因分析

  1. AI的100%准确率:Decision Tree、KNN、Random Forest和Voting Classifier在测试集上达到完美准确率。这可能与数据集特征-标签的强相关性有关。该数据集的分类边界可能被树模型和近邻模型完美捕获。
  2. Logistic Regression差距(AI 81% vs 原论文 94%):原论文使用SMOTE过采样 + 可能的超参数优化,AI使用class weighting,这一方法差异可能是性能差距的主要原因。
  3. SMOTE vs Class Weighting:原论文明确使用SMOTE(k=5),AI使用class weighting作为替代方案。两种方法处理类别不平衡的机制不同。

AI做到了什么

  • 9/9特征选择完全一致
  • 4种模型准确率超过或等于原论文
  • 完整的12张统计图表(混淆矩阵×6、模型对比、SHAP summary、相关热力图等)
  • 完整的学术论文稿件(7个.tex章节 + PDF + DOCX)
  • 84个统计数字通过自动审核验证
  • 全部工作在71分钟内完成

AI没做到什么

  • 未复现Dataset 2(309条Survey数据):原论文同时测试了两个数据集,AI只复现了Dataset 1
  • Logistic Regression准确率低于原论文13个百分点:可能需要更精细的超参数调优和SMOTE过采样
  • 未使用SMOTE:AI使用class weighting替代,可能影响部分模型(尤其是LR)的性能
  • 未报告AUC/ROC:原论文也未报告AUC值,但复现中同样缺失ROC曲线
  • 100%准确率需要审慎解读:在1000条数据上4个模型达到100%准确率,可能反映数据集本身的特性而非模型的真实泛化能力

结论

AI在71分钟内完成了原论文核心分析的复现,特征选择结果完全一致(9/9),多数模型性能优于或接近原论文。但Logistic Regression的性能差距和100%准确率的可信度问题表明:方法学的细节(过采样策略、超参数优化)仍然需要研究者的专业判断。AI提供了高效的baseline,研究者在此基础上进行针对性优化,是更合理的工作模式。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究