透明报告论文复现环境科学集成学习SHAP

复现报告:空气质量集成学习预测 — CO而非PM2.5成为最强预测因子,14分钟完成5模型训练

复现报告:空气质量集成学习预测 — CO而非PM2.5成为最强预测因子,14分钟完成5模型训练

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Singh, S., Kumar, M., Sengar, V., Kumar, A., Abhishek, K. & Shafeeq, B.M.A. (2026). Ensemble learning for air quality index prediction: integrating gradient boosting, XGBoost, and stacking with SHAP-based interpretability. Scientific Reports, 16, 8544. DOI: 10.1038/s41598-026-39232-w

作者机构:JSS Academy of Technical Education (Singh)、Bennett University (Kumar)、IIT Tirupati (Sengar)、NIT Patna (A. Kumar & Abhishek)、Manipal Academy of Higher Education (Shafeeq)

原论文数据集:台湾环保署 2016-2024 年数据,460 万条小时级记录,74 个监测站,6 种主要污染物(PM2.5、PM10、NO2、O3、SO2、CO)+ 气象参数

AI 复现数据集:Kaggle Air Quality and Pollution Assessment,5000 条记录,9 个特征(Temperature、Humidity、PM2.5、PM10、NO2、SO2、CO、Proximity_to_Industrial_Areas、Population_Density),目标变量为 4 类空气质量等级(Good/Moderate/Poor/Hazardous)

复现范围

  • ✅ 覆盖:集成学习建模(RF、GBR、XGBoost、LightGBM、Stacking)、SHAP 可解释性分析
  • ❌ 未覆盖:加权投票集成(GBR:4 CatBoost:3 XGBoost:2 LightGBM:1)、时序验证、CatBoost 单模型、PDP 分析

方法差异:原论文做 AQI 数值回归预测,AI 复现做 4 类空气质量等级分类。指标体系不同(MSE/R² vs Accuracy/F1),不能直接数值对比,但方法论路径一致。

执行记录

指标数值
总耗时14 分钟(798 秒)
产出文件数19 个
数据集行数5000
特征数9
训练模型数5
积分消耗53.08 积分(¥0.53)

复现结果对比

模型性能

由于任务类型不同(回归 vs 分类),以下仅做方法论层面的对比:

模型AI AccuracyAI F1原论文 MSE原论文 R²原论文来源
Random Forest0.94870.9484未单独报告未单独报告
Gradient Boosting0.94730.94700.56970.9972Table 2
XGBoost0.94930.9492未单独报告未单独报告
LightGBM0.95200.9517未单独报告未单独报告
Stacking0.94800.94780.7070Table 4
加权投票集成未复现未复现0.65530.9969Table 4
LSTM未复现未复现45.4Table 3

观察

  1. AI 复现中 LightGBM 表现最佳(F1=0.9517),与原论文中 Gradient Boosting 表现最佳的结论方向一致——都是梯度提升族模型领先
  2. Stacking 在两边都未超越最佳单模型:原论文 Stacking MSE 0.7070 > GBR MSE 0.5697(Table 4 vs Table 2);AI Stacking Acc 0.948 < LightGBM 0.952
  3. 原论文证明树模型远超 LSTM(MSE 差 ~80倍),AI 复现未测试深度学习基线

分类别准确率(AI 复现,LightGBM)

空气质量等级PrecisionRecallF1样本数
Good99.8%99.8%99.8%600
Moderate95.9%97.8%96.8%450
Poor88.3%88.3%88.3%300
Hazardous87.9%82.7%85.2%150

Good 类几乎完美预测,Hazardous 类最难预测(F1=85.2%),与样本量不平衡(Good:Hazardous = 4:1)相关。

特征重要性排序对比

排名原论文 SHAP Top 特征来源AI 复现 SHAP Top 特征重要性分数
1PM2.5 均值Figure 5CO2017
2O3 8小时均值Figure 5Temperature1559
3PM10 均值Figure 5Proximity_to_Industrial_Areas1545
4NO21413
5SO21325
6Humidity1274
7Population_Density1259
8PM10810
9PM2.5772

关键发现:特征重要性排序差异显著。原论文中 PM2.5 排名第一,AI 复现中 PM2.5 排名最末。原因分析:

  1. 数据集差异:原论文仅含 6 种污染物 + 气象参数,AI 数据集额外包含 Proximity_to_Industrial_Areas 和 Population_Density 等社会经济变量
  2. O3 缺失:Kaggle 数据集不含 O3(臭氧),而原论文中 O3 排名第二
  3. CO 浓度范围不同:两个数据集中 CO 的分布可能差异显著,导致其预测贡献不同

污染物单独排序(AI 复现,仅污染物特征)

排名污染物重要性
1CO2017
2NO21413
3SO21325
4PM10810
5PM2.5772

AI 做到了什么

  • 14 分钟内完成 5 种集成学习模型的训练和评估
  • 生成完整的 SHAP 可解释性分析(summary plot + 特征排序)
  • 自动绘制 7 张可视化图表(混淆矩阵、相关性热力图、特征重要性等)
  • 产出 LaTeX 可用的统计数据
  • 最佳模型 LightGBM 达到 95.2% 准确率

AI 没做到什么

  • 未复现加权投票集成:原论文核心贡献是 GBR:4 CatBoost:3 XGBoost:2 LightGBM:1 的特定权重方案,AI 仅用标准 Stacking
  • 未包含 CatBoost:原论文 4 个基模型之一,AI 复现中缺失
  • 未做时序验证:原论文使用 temporal validation(ΔR²=-0.0037),AI 仅用随机划分
  • 未做 PDP 分析:原论文结合 SHAP + Partial Dependence Plots,AI 仅做 SHAP
  • 任务类型不同:原论文是 AQI 回归预测,AI 做的是等级分类,无法直接对比性能数值
  • 数据规模差异大:460 万条 vs 5000 条,原论文覆盖 8 年时序,AI 使用横截面数据

结论

本次复现验证了集成学习方法在空气质量预测中的有效性。核心方法论一致:树模型集成(尤其是梯度提升族)在表格型环境数据上表现优异,Stacking 不一定优于调优后的单模型。

特征重要性排序的显著差异(CO vs PM2.5 作为最强预测因子)提供了一个有价值的洞察:同一方法论在不同数据集、不同地理区域上可能产生不同的特征排序,这正是多地区复现研究的意义所在。

原论文提出的加权投票集成策略是其学术贡献,这部分需要研究者的专业判断来设计权重方案。AI 能够快速建立 baseline 并完成标准化分析流程,但方法创新仍然是研究者的专属领域。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究