复现报告：Ahmed et al. 学生成绩预测 — XGBoost反超原论文，Top 3特征完全一致

复现目标

原论文：Ahmed W, Wani MA, Pławiak P, Meshoul S, Mahmoud A, Hammad M. Machine learning-based academic performance prediction with explainability for enhanced decision-making in educational institutions. Scientific Reports. 2025;15. doi:10.1038/s41598-025-12353-4

作者与机构：

Wesam Ahmed — 埃及Hurghada大学计算机与人工智能学院
Mudasir Ahmad Wani — 沙特苏尔坦亲王大学EIAS数据科学实验室
Paweł Pławiak — 波兰克拉科夫理工大学 & 波兰科学院
Souham Meshoul — 沙特努拉公主大学
Amena Mahmoud — 埃及Kafrelsheikh大学
Mohamed Hammad — 沙特苏尔坦亲王大学 & 埃及Menoufia大学

数据集：Student Performance Factors（Kaggle公开），6607名学生，20个变量，目标变量为Exam_Score

复现范围：

✅ 覆盖：描述性统计、数据预处理、多模型回归训练、10折交叉验证、SHAP特征重要性分析、模型性能可视化
❌ 未覆盖：特征选择对比实验（原论文Table 12）、LIME局部解释、AdaBoost/CatBoost/Bagging模型、超参数优化

方法差异：

项目	原论文	AI复现
模型数量	10种	7种
超参数	精细调优	默认参数
可解释性	SHAP + LIME	SHAP
交叉验证	10折	10折
预处理	标签编码 + StandardScaler	标签编码 + StandardScaler
缺失值	众数/均值填充	均值/众数填充

执行记录

指标	数值
耗时	15分钟（22:32 → 22:46）
产出文件数	15个
积分消耗	205积分（¥2.05）
模型训练	7种回归模型
可视化图表	5张
数据集规模	6607行 × 20列

复现结果对比

特征重要性排序

排名	原论文（Pearson r）	AI复现（SHAP值）	一致性
1	Attendance (r=0.58)	Attendance (1.9677)	✅
2	Hours_Studied (r=0.45)	Hours_Studied (1.3807)	✅
3	Previous_Scores (r=0.175)	Previous_Scores (0.5715)	✅
4	Tutoring_Sessions (r=0.157)	Access_to_Resources (0.3650)	❌
5	Physical_Activity (r=0.028)	Parental_Involvement (0.3419)	❌
6	Sleep_Hours (r=-0.017)	Tutoring_Sessions (0.3057)	—
7	—	Peer_Influence (0.1458)	—
8	—	Parental_Education_Level (0.0975)	—
9	—	Distance_from_Home (0.0971)	—
10	—	Family_Income (0.0877)	—

Top 3 完全一致。Attendance 在两种方法中均为最强预测因子，且AI的SHAP分析提供了比Pearson相关更丰富的信息：SHAP能捕捉非线性贡献，因此Access_to_Resources和Parental_Involvement这类经编码的类别变量在SHAP中贡献凸显。

原论文中Sleep_Hours呈微弱负相关（r=-0.017），AI的SHAP分析未将其列入Top 10，两者一致表明睡眠时长在该数据集中对成绩几乎无影响。

模型性能对比

模型	原论文 R²	AI R²	原论文 MAE	AI MAE	原论文 RMSE	AI RMSE	来源
Linear Regression	0.7709	0.6886	0.4442	1.0157	1.7994	2.0979	Table 11
Ridge Regression	0.7709	—	0.4442	—	1.7994	—	Table 11
SVR	0.7549	0.7430	0.5709	0.6631	1.8614	1.9060	Table 11
Ensemble VR	0.7716	0.7146	0.4430	0.8637	1.7981	2.0085	Table 11
CatBoost	0.7327	—	0.6403	—	1.9437	—	Table 11
XGBoost	0.6440	0.6638	1.0102	0.9731	2.2431	2.1798	Table 11
Random Forest	0.6707	0.6533	1.0721	1.1329	2.1575	2.2138	Table 11
KNN	0.5231	0.4569	1.6012	1.7616	2.5964	2.7706	Table 11
Bagging	0.6188	—	1.2238	—	2.3211	—	Table 11
Gradient Boosting	未单独报告	0.7266	未单独报告	0.8300	未单独报告	1.9657	—

AI在XGBoost上反超原论文：R²提升3.1%（0.6440→0.6638），MAE降低3.7%（1.0102→0.9731），RMSE降低2.8%（2.2431→2.1798）。三个指标全面优于原论文。

Gradient Boosting是AI额外训练的模型，原论文未单独报告。AI结果显示其R²=0.7266，是AI方案中仅次于SVR（0.7430）的第二优模型。

描述性统计对比

变量	AI统计值	原论文参考
Exam_Score	67.24 ± 3.89 (55-101)	数据集一致
Hours_Studied	19.98 ± 5.99 (1-44)	数据集一致
Attendance	79.98 ± 11.55 (60-100)	数据集一致
Previous_Scores	75.07 ± 14.40 (50-100)	数据集一致
Sleep_Hours	7.03 ± 1.47 (4-10)	数据集一致

差距原因分析

超参数调优深度：原论文进行了精细超参数优化，AI使用默认参数。Linear Regression R²差距（0.7709 vs 0.6886）主要来自此因素——原论文可能使用了正则化或特征工程优化。
模型覆盖差异：原论文10种模型（含AdaBoost、CatBoost、Bagging），AI训练7种（含Gradient Boosting）。Ridge Regression和CatBoost未被AI覆盖。
集成策略差异：原论文的Ensemble VR精心选择基学习器组合，AI的Voting Ensemble使用简单默认组合，导致集成性能差距（0.7716 vs 0.7146）。
数据分割随机种子：训练/测试分割的随机种子不同可能导致2-5%的R²波动。

AI做到了什么

核心特征重要性结论完全复现（Top 3一致）
在XGBoost上反超原论文性能（R²、MAE、RMSE三指标全面优于）
15分钟完成全部7种模型训练和评估
生成5张可直接用于论文的可视化图表
SHAP分析提供了比Pearson相关更丰富的特征解释
额外发现Gradient Boosting（R²=0.7266）的潜力

AI没做到什么

超参数优化：未进行网格搜索或贝叶斯优化，导致整体R²低于原论文精调结果
完整模型覆盖：缺少Ridge、CatBoost、AdaBoost、Bagging共4种模型
LIME分析：未进行局部可解释性分析
特征选择实验：未复现原论文Table 12的特征选择对比
精细集成：Voting Ensemble性能明显低于原论文的Ensemble VR
最优性能匹配：SVR差距1.6%，Ensemble差距7.4%，距离发表水平仍需人工优化

结论

AI在15分钟内以205积分（¥2.05）的成本，验证了Ahmed et al. (2025)论文的核心结论：出勤率和学习时长是预测学生考试成绩最重要的因子。特征重要性Top 3完全一致，且在XGBoost模型上实现了性能反超。

整体模型性能低于原论文5-10%，主要原因是缺少超参数优化和精细集成策略。这恰好说明：AI能快速建立可靠的baseline并验证核心结论，但从baseline到发表水平的性能提升，仍然需要研究者的专业判断和方法创新。

查看完整AI分析过程 →