复现报告：Ali et al. 肺癌ML框架 — 特征选择9/9一致，4模型准确率反超原论文

复现目标

原论文：Ali, Mir, Rehman, Humayun, Shaheen, Alshammari (2025). "Revolutionizing Lung Cancer Detection: A High-Accuracy Machine Learning Framework for Early Diagnosis." BioMed Research International. DOI: 10.1155/bmri/9961773

作者机构：

Tahir Muhammad Ali, Attique Ur Rehman — Gulf University for Sciences and Technology, Kuwait
Azka Mir — University of Sialkot, Pakistan
Mamoona Humayun, Momina Shaheen — University of Roehampton, London, UK
Rafeef Taresh Suliman Alshammari — Jouf University, Saudi Arabia

数据集：Kaggle Cancer Patients and Air Pollution Dataset（1000条患者记录，25个特征，3个风险等级：Low/Medium/High）

复现范围：

✅ SelectKBest特征选择（ANOVA F检验，k=9）
✅ 多模型训练（Decision Tree、KNN、Logistic Regression、Naive Bayes、Random Forest、Voting Classifier）
✅ 10折交叉验证
✅ SHAP特征重要性分析
❌ 未复现Dataset 2（309条Survey数据集）
❌ 未使用SMOTE（原论文使用SMOTE，AI使用class weighting）

执行记录

指标	数值
精确耗时	71分钟（17:49→18:59）
产出文件数	39个
数据审核	84个数字验证通过
统计图表	12张
论文章节	7个.tex文件 + PDF + DOCX
文献检索	5次（PubMed + OpenAlex）

复现结果对比

特征选择对比（SelectKBest, k=9）

序号	原论文特征（Table 10）	AI复现特征	判定
1	Air Pollution	Air Pollution	✅ 一致
2	Balanced Diet	Balanced Diet	✅ 一致
3	Alcohol consumption	Alcohol use	✅ 一致
4	Obesity	Obesity	✅ 一致
5	Genetic Risk	Genetic Risk	✅ 一致
6	Allergy	Dust Allergy	✅ 一致
7	Workplace Hazards	OccuPational Hazards	✅ 一致
8	Passive Smoking	Passive Smoker	✅ 一致
9	Blood in Cough	Coughing of Blood	✅ 一致

特征选择完全一致（9/9）。字段名称略有差异但指向相同变量。

注：原论文Table 10列出的第9个特征为"Blood in cough"（咳血），与AI选出的"Coughing of Blood"指向同一变量。此前对照时误将原论文特征记为"Fatigue"（来源于原论文SHAP分析的不同特征集），经核实Table 10后修正。

模型性能对比

模型	原论文准确率（Table 11）	AI准确率	AI精确率	AI召回率	AI F1	对比
Decision Tree	96%	100.00%	100.00%	100.00%	100.00%	AI +4%
KNN	79%	100.00%	100.00%	100.00%	100.00%	AI +21%
Logistic Regression	94%	81.00%	81.48%	81.00%	81.09%	原论文 +13%
Naive Bayes	57.5%	68.50%	67.37%	68.50%	65.02%	AI +11%
Random Forest	未单独报告	100.00%	100.00%	100.00%	100.00%	—
Voting Classifier	99%	100.00%	100.00%	100.00%	100.00%	AI +1%

原论文仅报告了各模型的准确率，未报告精确率/召回率/F1（集成模型除外：precision=94%, recall=94%, F1=94%）。

注：原论文集成模型在交叉验证中准确率为0.991 ± 0.009（原论文Results section），AI交叉验证准确率也达到100%。原论文使用的测试条件为SMOTE + SelectKBest（9特征），AI使用class weighting替代SMOTE。

特征重要性对比（SHAP / Kruskal-Wallis）

排名	原论文SHAP关键因子	AI复现（Kruskal-Wallis统计量）
1	Passive Smoking	Obesity (1037.8)
2	Wheezing	Coughing of Blood (887.8)
3	Alcohol use	Passive Smoker (607.2)
4	Coughing Blood	Balanced Diet (555.6)
5	—	Alcohol use (478.1)

Passive Smoker和Alcohol use在两个分析中都排名前列，方向一致。排序差异主要来自分析方法不同（原论文用SHAP值，AI用Kruskal-Wallis检验统计量）。

描述性统计对比

变量	原论文（Figure/Table）	AI复现	判定
样本量	1000	1000	✅
风险等级分布	Low=303, Medium=332, High=365	Low=303, Medium=332, High=365	✅ 完全一致
年龄均值	未明确报告	37.17 ± 12.01	—

差距原因分析

AI的100%准确率：Decision Tree、KNN、Random Forest和Voting Classifier在测试集上达到完美准确率。这可能与数据集特征-标签的强相关性有关。该数据集的分类边界可能被树模型和近邻模型完美捕获。
Logistic Regression差距（AI 81% vs 原论文 94%）：原论文使用SMOTE过采样 + 可能的超参数优化，AI使用class weighting，这一方法差异可能是性能差距的主要原因。
SMOTE vs Class Weighting：原论文明确使用SMOTE（k=5），AI使用class weighting作为替代方案。两种方法处理类别不平衡的机制不同。

AI做到了什么

9/9特征选择完全一致
4种模型准确率超过或等于原论文
完整的12张统计图表（混淆矩阵×6、模型对比、SHAP summary、相关热力图等）
完整的学术论文稿件（7个.tex章节 + PDF + DOCX）
84个统计数字通过自动审核验证
全部工作在71分钟内完成

AI没做到什么

未复现Dataset 2（309条Survey数据）：原论文同时测试了两个数据集，AI只复现了Dataset 1
Logistic Regression准确率低于原论文13个百分点：可能需要更精细的超参数调优和SMOTE过采样
未使用SMOTE：AI使用class weighting替代，可能影响部分模型（尤其是LR）的性能
未报告AUC/ROC：原论文也未报告AUC值，但复现中同样缺失ROC曲线
100%准确率需要审慎解读：在1000条数据上4个模型达到100%准确率，可能反映数据集本身的特性而非模型的真实泛化能力

结论

AI在71分钟内完成了原论文核心分析的复现，特征选择结果完全一致（9/9），多数模型性能优于或接近原论文。但Logistic Regression的性能差距和100%准确率的可信度问题表明：方法学的细节（过采样策略、超参数优化）仍然需要研究者的专业判断。AI提供了高效的baseline，研究者在此基础上进行针对性优化，是更合理的工作模式。

查看完整AI分析过程 →