透明报告论文复现教育学机器学习SHAP

复现报告:Ahmed et al. 学生成绩预测 — XGBoost反超原论文,Top 3特征完全一致

复现报告:Ahmed et al. 学生成绩预测 — XGBoost反超原论文,Top 3特征完全一致

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Ahmed W, Wani MA, Pławiak P, Meshoul S, Mahmoud A, Hammad M. Machine learning-based academic performance prediction with explainability for enhanced decision-making in educational institutions. Scientific Reports. 2025;15. doi:10.1038/s41598-025-12353-4

作者与机构

  • Wesam Ahmed — 埃及Hurghada大学计算机与人工智能学院
  • Mudasir Ahmad Wani — 沙特苏尔坦亲王大学EIAS数据科学实验室
  • Paweł Pławiak — 波兰克拉科夫理工大学 & 波兰科学院
  • Souham Meshoul — 沙特努拉公主大学
  • Amena Mahmoud — 埃及Kafrelsheikh大学
  • Mohamed Hammad — 沙特苏尔坦亲王大学 & 埃及Menoufia大学

数据集:Student Performance Factors(Kaggle公开),6607名学生,20个变量,目标变量为Exam_Score

复现范围

  • ✅ 覆盖:描述性统计、数据预处理、多模型回归训练、10折交叉验证、SHAP特征重要性分析、模型性能可视化
  • ❌ 未覆盖:特征选择对比实验(原论文Table 12)、LIME局部解释、AdaBoost/CatBoost/Bagging模型、超参数优化

方法差异

项目原论文AI复现
模型数量10种7种
超参数精细调优默认参数
可解释性SHAP + LIMESHAP
交叉验证10折10折
预处理标签编码 + StandardScaler标签编码 + StandardScaler
缺失值众数/均值填充均值/众数填充

执行记录

指标数值
耗时15分钟(22:32 → 22:46)
产出文件数15个
积分消耗205积分(¥2.05)
模型训练7种回归模型
可视化图表5张
数据集规模6607行 × 20列

复现结果对比

特征重要性排序

排名原论文(Pearson r)AI复现(SHAP值)一致性
1Attendance (r=0.58)Attendance (1.9677)
2Hours_Studied (r=0.45)Hours_Studied (1.3807)
3Previous_Scores (r=0.175)Previous_Scores (0.5715)
4Tutoring_Sessions (r=0.157)Access_to_Resources (0.3650)
5Physical_Activity (r=0.028)Parental_Involvement (0.3419)
6Sleep_Hours (r=-0.017)Tutoring_Sessions (0.3057)
7Peer_Influence (0.1458)
8Parental_Education_Level (0.0975)
9Distance_from_Home (0.0971)
10Family_Income (0.0877)

Top 3 完全一致。Attendance 在两种方法中均为最强预测因子,且AI的SHAP分析提供了比Pearson相关更丰富的信息:SHAP能捕捉非线性贡献,因此Access_to_Resources和Parental_Involvement这类经编码的类别变量在SHAP中贡献凸显。

原论文中Sleep_Hours呈微弱负相关(r=-0.017),AI的SHAP分析未将其列入Top 10,两者一致表明睡眠时长在该数据集中对成绩几乎无影响。

模型性能对比

模型原论文 R²AI R²原论文 MAEAI MAE原论文 RMSEAI RMSE来源
Linear Regression0.77090.68860.44421.01571.79942.0979Table 11
Ridge Regression0.77090.44421.7994Table 11
SVR0.75490.74300.57090.66311.86141.9060Table 11
Ensemble VR0.77160.71460.44300.86371.79812.0085Table 11
CatBoost0.73270.64031.9437Table 11
XGBoost0.64400.66381.01020.97312.24312.1798Table 11
Random Forest0.67070.65331.07211.13292.15752.2138Table 11
KNN0.52310.45691.60121.76162.59642.7706Table 11
Bagging0.61881.22382.3211Table 11
Gradient Boosting未单独报告0.7266未单独报告0.8300未单独报告1.9657

AI在XGBoost上反超原论文:R²提升3.1%(0.6440→0.6638),MAE降低3.7%(1.0102→0.9731),RMSE降低2.8%(2.2431→2.1798)。三个指标全面优于原论文。

Gradient Boosting是AI额外训练的模型,原论文未单独报告。AI结果显示其R²=0.7266,是AI方案中仅次于SVR(0.7430)的第二优模型。

描述性统计对比

变量AI统计值原论文参考
Exam_Score67.24 ± 3.89 (55-101)数据集一致
Hours_Studied19.98 ± 5.99 (1-44)数据集一致
Attendance79.98 ± 11.55 (60-100)数据集一致
Previous_Scores75.07 ± 14.40 (50-100)数据集一致
Sleep_Hours7.03 ± 1.47 (4-10)数据集一致

差距原因分析

  1. 超参数调优深度:原论文进行了精细超参数优化,AI使用默认参数。Linear Regression R²差距(0.7709 vs 0.6886)主要来自此因素——原论文可能使用了正则化或特征工程优化。

  2. 模型覆盖差异:原论文10种模型(含AdaBoost、CatBoost、Bagging),AI训练7种(含Gradient Boosting)。Ridge Regression和CatBoost未被AI覆盖。

  3. 集成策略差异:原论文的Ensemble VR精心选择基学习器组合,AI的Voting Ensemble使用简单默认组合,导致集成性能差距(0.7716 vs 0.7146)。

  4. 数据分割随机种子:训练/测试分割的随机种子不同可能导致2-5%的R²波动。

AI做到了什么

  • 核心特征重要性结论完全复现(Top 3一致)
  • 在XGBoost上反超原论文性能(R²、MAE、RMSE三指标全面优于)
  • 15分钟完成全部7种模型训练和评估
  • 生成5张可直接用于论文的可视化图表
  • SHAP分析提供了比Pearson相关更丰富的特征解释
  • 额外发现Gradient Boosting(R²=0.7266)的潜力

AI没做到什么

  • 超参数优化:未进行网格搜索或贝叶斯优化,导致整体R²低于原论文精调结果
  • 完整模型覆盖:缺少Ridge、CatBoost、AdaBoost、Bagging共4种模型
  • LIME分析:未进行局部可解释性分析
  • 特征选择实验:未复现原论文Table 12的特征选择对比
  • 精细集成:Voting Ensemble性能明显低于原论文的Ensemble VR
  • 最优性能匹配:SVR差距1.6%,Ensemble差距7.4%,距离发表水平仍需人工优化

结论

AI在15分钟内以205积分(¥2.05)的成本,验证了Ahmed et al. (2025)论文的核心结论:出勤率和学习时长是预测学生考试成绩最重要的因子。特征重要性Top 3完全一致,且在XGBoost模型上实现了性能反超。

整体模型性能低于原论文5-10%,主要原因是缺少超参数优化和精细集成策略。这恰好说明:AI能快速建立可靠的baseline并验证核心结论,但从baseline到发表水平的性能提升,仍然需要研究者的专业判断和方法创新。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究