复现报告：空气质量集成学习预测 — CO而非PM2.5成为最强预测因子，14分钟完成5模型训练

复现目标

原论文：Singh, S., Kumar, M., Sengar, V., Kumar, A., Abhishek, K. & Shafeeq, B.M.A. (2026). Ensemble learning for air quality index prediction: integrating gradient boosting, XGBoost, and stacking with SHAP-based interpretability. Scientific Reports, 16, 8544. DOI: 10.1038/s41598-026-39232-w

作者机构：JSS Academy of Technical Education (Singh)、Bennett University (Kumar)、IIT Tirupati (Sengar)、NIT Patna (A. Kumar & Abhishek)、Manipal Academy of Higher Education (Shafeeq)

原论文数据集：台湾环保署 2016-2024 年数据，460 万条小时级记录，74 个监测站，6 种主要污染物（PM2.5、PM10、NO2、O3、SO2、CO）+ 气象参数

AI 复现数据集：Kaggle Air Quality and Pollution Assessment，5000 条记录，9 个特征（Temperature、Humidity、PM2.5、PM10、NO2、SO2、CO、Proximity_to_Industrial_Areas、Population_Density），目标变量为 4 类空气质量等级（Good/Moderate/Poor/Hazardous）

复现范围：

✅ 覆盖：集成学习建模（RF、GBR、XGBoost、LightGBM、Stacking）、SHAP 可解释性分析
❌ 未覆盖：加权投票集成（GBR:4 CatBoost:3 XGBoost:2 LightGBM:1）、时序验证、CatBoost 单模型、PDP 分析

方法差异：原论文做 AQI 数值回归预测，AI 复现做 4 类空气质量等级分类。指标体系不同（MSE/R² vs Accuracy/F1），不能直接数值对比，但方法论路径一致。

执行记录

指标	数值
总耗时	14 分钟（798 秒）
产出文件数	19 个
数据集行数	5000
特征数	9
训练模型数	5
积分消耗	53.08 积分（¥0.53）

复现结果对比

模型性能

由于任务类型不同（回归 vs 分类），以下仅做方法论层面的对比：

模型	AI Accuracy	AI F1	原论文 MSE	原论文 R²	原论文来源
Random Forest	0.9487	0.9484	未单独报告	未单独报告	—
Gradient Boosting	0.9473	0.9470	0.5697	0.9972	Table 2
XGBoost	0.9493	0.9492	未单独报告	未单独报告	—
LightGBM	0.9520	0.9517	未单独报告	未单独报告	—
Stacking	0.9480	0.9478	0.7070	—	Table 4
加权投票集成	未复现	未复现	0.6553	0.9969	Table 4
LSTM	未复现	未复现	45.4	—	Table 3

观察：

AI 复现中 LightGBM 表现最佳（F1=0.9517），与原论文中 Gradient Boosting 表现最佳的结论方向一致——都是梯度提升族模型领先
Stacking 在两边都未超越最佳单模型：原论文 Stacking MSE 0.7070 > GBR MSE 0.5697（Table 4 vs Table 2）；AI Stacking Acc 0.948 < LightGBM 0.952
原论文证明树模型远超 LSTM（MSE 差 ~80倍），AI 复现未测试深度学习基线

分类别准确率（AI 复现，LightGBM）

空气质量等级	Precision	Recall	F1	样本数
Good	99.8%	99.8%	99.8%	600
Moderate	95.9%	97.8%	96.8%	450
Poor	88.3%	88.3%	88.3%	300
Hazardous	87.9%	82.7%	85.2%	150

Good 类几乎完美预测，Hazardous 类最难预测（F1=85.2%），与样本量不平衡（Good:Hazardous = 4:1）相关。

特征重要性排序对比

排名	原论文 SHAP Top 特征	来源	AI 复现 SHAP Top 特征	重要性分数
1	PM2.5 均值	Figure 5	CO	2017
2	O3 8小时均值	Figure 5	Temperature	1559
3	PM10 均值	Figure 5	Proximity_to_Industrial_Areas	1545
4	—	—	NO2	1413
5	—	—	SO2	1325
6	—	—	Humidity	1274
7	—	—	Population_Density	1259
8	—	—	PM10	810
9	—	—	PM2.5	772

关键发现：特征重要性排序差异显著。原论文中 PM2.5 排名第一，AI 复现中 PM2.5 排名最末。原因分析：

数据集差异：原论文仅含 6 种污染物 + 气象参数，AI 数据集额外包含 Proximity_to_Industrial_Areas 和 Population_Density 等社会经济变量
O3 缺失：Kaggle 数据集不含 O3（臭氧），而原论文中 O3 排名第二
CO 浓度范围不同：两个数据集中 CO 的分布可能差异显著，导致其预测贡献不同

污染物单独排序（AI 复现，仅污染物特征）

排名	污染物	重要性
1	CO	2017
2	NO2	1413
3	SO2	1325
4	PM10	810
5	PM2.5	772

AI 做到了什么

14 分钟内完成 5 种集成学习模型的训练和评估
生成完整的 SHAP 可解释性分析（summary plot + 特征排序）
自动绘制 7 张可视化图表（混淆矩阵、相关性热力图、特征重要性等）
产出 LaTeX 可用的统计数据
最佳模型 LightGBM 达到 95.2% 准确率

AI 没做到什么

未复现加权投票集成：原论文核心贡献是 GBR:4 CatBoost:3 XGBoost:2 LightGBM:1 的特定权重方案，AI 仅用标准 Stacking
未包含 CatBoost：原论文 4 个基模型之一，AI 复现中缺失
未做时序验证：原论文使用 temporal validation（ΔR²=-0.0037），AI 仅用随机划分
未做 PDP 分析：原论文结合 SHAP + Partial Dependence Plots，AI 仅做 SHAP
任务类型不同：原论文是 AQI 回归预测，AI 做的是等级分类，无法直接对比性能数值
数据规模差异大：460 万条 vs 5000 条，原论文覆盖 8 年时序，AI 使用横截面数据

结论

本次复现验证了集成学习方法在空气质量预测中的有效性。核心方法论一致：树模型集成（尤其是梯度提升族）在表格型环境数据上表现优异，Stacking 不一定优于调优后的单模型。

特征重要性排序的显著差异（CO vs PM2.5 作为最强预测因子）提供了一个有价值的洞察：同一方法论在不同数据集、不同地理区域上可能产生不同的特征排序，这正是多地区复现研究的意义所在。

原论文提出的加权投票集成策略是其学术贡献，这部分需要研究者的专业判断来设计权重方案。AI 能够快速建立 baseline 并完成标准化分析流程，但方法创新仍然是研究者的专属领域。

查看完整AI分析过程 →