复现目标
原论文:Ali, Mir, Rehman, Humayun, Shaheen, Alshammari (2025). "Revolutionizing Lung Cancer Detection: A High-Accuracy Machine Learning Framework for Early Diagnosis." BioMed Research International. DOI: 10.1155/bmri/9961773
作者机构:
- Tahir Muhammad Ali, Attique Ur Rehman — Gulf University for Sciences and Technology, Kuwait
- Azka Mir — University of Sialkot, Pakistan
- Mamoona Humayun, Momina Shaheen — University of Roehampton, London, UK
- Rafeef Taresh Suliman Alshammari — Jouf University, Saudi Arabia
数据集:Kaggle Cancer Patients and Air Pollution Dataset(1000条患者记录,25个特征,3个风险等级:Low/Medium/High)
复现范围:
- ✅ SelectKBest特征选择(ANOVA F检验,k=9)
- ✅ 多模型训练(Decision Tree、KNN、Logistic Regression、Naive Bayes、Random Forest、Voting Classifier)
- ✅ 10折交叉验证
- ✅ SHAP特征重要性分析
- ❌ 未复现Dataset 2(309条Survey数据集)
- ❌ 未使用SMOTE(原论文使用SMOTE,AI使用class weighting)
执行记录
| 指标 | 数值 |
|---|---|
| 精确耗时 | 71分钟(17:49→18:59) |
| 产出文件数 | 39个 |
| 数据审核 | 84个数字验证通过 |
| 统计图表 | 12张 |
| 论文章节 | 7个.tex文件 + PDF + DOCX |
| 文献检索 | 5次(PubMed + OpenAlex) |
复现结果对比
特征选择对比(SelectKBest, k=9)
| 序号 | 原论文特征(Table 10) | AI复现特征 | 判定 |
|---|---|---|---|
| 1 | Air Pollution | Air Pollution | ✅ 一致 |
| 2 | Balanced Diet | Balanced Diet | ✅ 一致 |
| 3 | Alcohol consumption | Alcohol use | ✅ 一致 |
| 4 | Obesity | Obesity | ✅ 一致 |
| 5 | Genetic Risk | Genetic Risk | ✅ 一致 |
| 6 | Allergy | Dust Allergy | ✅ 一致 |
| 7 | Workplace Hazards | OccuPational Hazards | ✅ 一致 |
| 8 | Passive Smoking | Passive Smoker | ✅ 一致 |
| 9 | Blood in Cough | Coughing of Blood | ✅ 一致 |
特征选择完全一致(9/9)。字段名称略有差异但指向相同变量。
注:原论文Table 10列出的第9个特征为"Blood in cough"(咳血),与AI选出的"Coughing of Blood"指向同一变量。此前对照时误将原论文特征记为"Fatigue"(来源于原论文SHAP分析的不同特征集),经核实Table 10后修正。
模型性能对比
| 模型 | 原论文准确率(Table 11) | AI准确率 | AI精确率 | AI召回率 | AI F1 | 对比 |
|---|---|---|---|---|---|---|
| Decision Tree | 96% | 100.00% | 100.00% | 100.00% | 100.00% | AI +4% |
| KNN | 79% | 100.00% | 100.00% | 100.00% | 100.00% | AI +21% |
| Logistic Regression | 94% | 81.00% | 81.48% | 81.00% | 81.09% | 原论文 +13% |
| Naive Bayes | 57.5% | 68.50% | 67.37% | 68.50% | 65.02% | AI +11% |
| Random Forest | 未单独报告 | 100.00% | 100.00% | 100.00% | 100.00% | — |
| Voting Classifier | 99% | 100.00% | 100.00% | 100.00% | 100.00% | AI +1% |
原论文仅报告了各模型的准确率,未报告精确率/召回率/F1(集成模型除外:precision=94%, recall=94%, F1=94%)。
注:原论文集成模型在交叉验证中准确率为0.991 ± 0.009(原论文Results section),AI交叉验证准确率也达到100%。原论文使用的测试条件为SMOTE + SelectKBest(9特征),AI使用class weighting替代SMOTE。
特征重要性对比(SHAP / Kruskal-Wallis)
| 排名 | 原论文SHAP关键因子 | AI复现(Kruskal-Wallis统计量) |
|---|---|---|
| 1 | Passive Smoking | Obesity (1037.8) |
| 2 | Wheezing | Coughing of Blood (887.8) |
| 3 | Alcohol use | Passive Smoker (607.2) |
| 4 | Coughing Blood | Balanced Diet (555.6) |
| 5 | — | Alcohol use (478.1) |
Passive Smoker和Alcohol use在两个分析中都排名前列,方向一致。排序差异主要来自分析方法不同(原论文用SHAP值,AI用Kruskal-Wallis检验统计量)。
描述性统计对比
| 变量 | 原论文(Figure/Table) | AI复现 | 判定 |
|---|---|---|---|
| 样本量 | 1000 | 1000 | ✅ |
| 风险等级分布 | Low=303, Medium=332, High=365 | Low=303, Medium=332, High=365 | ✅ 完全一致 |
| 年龄均值 | 未明确报告 | 37.17 ± 12.01 | — |
差距原因分析
- AI的100%准确率:Decision Tree、KNN、Random Forest和Voting Classifier在测试集上达到完美准确率。这可能与数据集特征-标签的强相关性有关。该数据集的分类边界可能被树模型和近邻模型完美捕获。
- Logistic Regression差距(AI 81% vs 原论文 94%):原论文使用SMOTE过采样 + 可能的超参数优化,AI使用class weighting,这一方法差异可能是性能差距的主要原因。
- SMOTE vs Class Weighting:原论文明确使用SMOTE(k=5),AI使用class weighting作为替代方案。两种方法处理类别不平衡的机制不同。
AI做到了什么
- 9/9特征选择完全一致
- 4种模型准确率超过或等于原论文
- 完整的12张统计图表(混淆矩阵×6、模型对比、SHAP summary、相关热力图等)
- 完整的学术论文稿件(7个.tex章节 + PDF + DOCX)
- 84个统计数字通过自动审核验证
- 全部工作在71分钟内完成
AI没做到什么
- 未复现Dataset 2(309条Survey数据):原论文同时测试了两个数据集,AI只复现了Dataset 1
- Logistic Regression准确率低于原论文13个百分点:可能需要更精细的超参数调优和SMOTE过采样
- 未使用SMOTE:AI使用class weighting替代,可能影响部分模型(尤其是LR)的性能
- 未报告AUC/ROC:原论文也未报告AUC值,但复现中同样缺失ROC曲线
- 100%准确率需要审慎解读:在1000条数据上4个模型达到100%准确率,可能反映数据集本身的特性而非模型的真实泛化能力
结论
AI在71分钟内完成了原论文核心分析的复现,特征选择结果完全一致(9/9),多数模型性能优于或接近原论文。但Logistic Regression的性能差距和100%准确率的可信度问题表明:方法学的细节(过采样策略、超参数优化)仍然需要研究者的专业判断。AI提供了高效的baseline,研究者在此基础上进行针对性优化,是更合理的工作模式。
