复现报告：Sharafeldeen et al. HR离职预测 — AdaBoost综合最优但特征排序与原论文存在分歧

复现目标

原论文：Sharafeldeen, A. et al. (2026). Integrating machine learning and explainable AI for employee attrition prediction in HR analytics. Scientific Reports, 16, 6344. DOI: 10.1038/s41598-026-36424-2

作者机构：Faculty of Engineering, Mansoura University, Egypt

数据集：IBM HR Analytics Employee Attrition & Performance，1470 名员工，35 个特征，二分类目标变量（Attrition: Yes/No），离职率约 16%。

复现范围：

✅ 覆盖：5 种分类模型（AdaBoost、Random Forest、XGBoost、Logistic Regression、Gradient Boosting）、SHAP 全局与局部可解释性分析
❌ 未覆盖：Histogram Gradient Boosting（原论文最佳模型）、ADASYN 过采样、TPE 超参数优化、多数据集交叉验证

方法差异：原论文使用 ADASYN 处理类别不平衡 + TPE（Tree-structured Parzen Estimator）进行超参数优化；AI 复现使用默认 SMOTE + 默认超参数。这一差异是导致性能差距的主要原因。

执行记录

指标	数值
总耗时	10 分钟
产出文件数	17 个
训练模型数	5 种
积分消耗	52.4 积分（¥0.52）

复现结果对比

模型性能

模型	原论文 Accuracy	AI Accuracy	原论文 AUC	AI AUC	原论文来源
AdaBoost	90.82%	78.91%	—	0.7359	Abstract
Random Forest	86.05%	81.18%	—	0.7054	Snippet
XGBoost	未单独报告	82.09%	—	0.7044	—
Logistic Regression	未单独报告	79.37%	—	0.7289	—
Gradient Boosting	未单独报告	80.27%	—	0.7097	—

性能差距分析：

AdaBoost 准确率差距达 11.91 个百分点（90.82% vs 78.91%），Random Forest 差距约 4.87 个百分点。差距来源：

过采样策略：原论文使用 ADASYN（自适应合成过采样），在困难样本邻域生成更多合成样本；AI 使用标准 SMOTE，对所有少数类样本均匀生成合成数据，针对性不足
超参数优化：原论文使用 TPE 进行贝叶斯超参数搜索，AI 使用 scikit-learn 默认参数，模型潜力未充分释放
训练/测试划分：原论文可能采用不同的划分策略或交叉验证方案，具体细节需参考原文全文
缺失模型：原论文最佳模型 Histogram Gradient Boosting 未被复现

尽管存在准确率差距，AI 复现中 AdaBoost 在 AUC（0.7359）和 F1 指标上表现最佳，这与原论文 AdaBoost 综合表现优异的结论方向一致。

特征重要性排序对比

排名	原论文 SHAP 排序	AI 复现 SHAP 排序	SHAP 值	是否匹配
1	OverTime	StockOptionLevel	0.093	✗
2	JobLevel	JobInvolvement	0.040	✗
3	JobSatisfaction	YearsWithCurrManager	0.038	✗
4	—	JobSatisfaction	0.037	○（原论文 #3）
5	—	WorkLifeBalance	0.036	—

注：原论文 SHAP 排序来源于摘要部分，仅提及前三位（OverTime、JobLevel、JobSatisfaction）。

关键发现：特征重要性排序差异显著。AI 复现中 StockOptionLevel（SHAP=0.093）以较大优势排名第一，而原论文中 OverTime 排名第一。JobSatisfaction 在两边均进入前列（原论文 #3，AI #4），但排序位置不同。

差异原因分析：

过采样方法不同：ADASYN 与 SMOTE 生成的合成样本分布不同，直接影响模型学到的特征权重
超参数差异：不同的模型参数会改变特征的相对贡献
OverTime 未进入 AI 前五：这是最值得关注的分歧点，可能需要领域专家进一步调查编码方式和数据预处理流程的差异

描述性统计一致性

两边在基础数据特征上保持一致：

离职率均为约 16%（约 237/1470）
加班、低满意度、低收入均被识别为离职风险因素
数据集基本特征（样本量、特征数）完全一致

模型性能对比

SHAP特征重要性

SHAP Beeswarm图

AI 做到了什么

10 分钟内完成 5 种分类模型的训练与评估
生成 SHAP 全局特征重要性排序 + 局部单样本解释
产出 5 张可视化图表（模型对比、SHAP bar chart、beeswarm plot 等）
自动完成数据预处理与 SMOTE 过采样
确认了 AdaBoost 在综合指标上的优势地位，与原论文方向一致

AI 没做到什么

未实现 ADASYN 过采样：原论文使用 ADASYN 而非 SMOTE，这是导致准确率差距的核心因素之一
未使用 TPE 超参数优化：默认超参数 vs 贝叶斯优化，直接导致模型性能未充分释放
未测试 Histogram Gradient Boosting：这是原论文中表现最佳的模型，AI 复现完全缺失
未进行多数据集验证：原论文在多个数据集上验证了方法的泛化性
SHAP 特征排序与原论文显著不同：StockOptionLevel vs OverTime 作为最重要特征，这一分歧需要领域专家深入调查
未进行公平性分析：原论文提及的 fairness analysis 未被复现

结论

AI 在 10 分钟内建立了一个合理的基线复现。核心发现——AdaBoost 在召回率和 F1 上综合表现最佳——与原论文方向部分一致。

但两个显著差异值得关注：一是准确率差距（AdaBoost 90.82% vs 78.91%），二是 SHAP 特征重要性排序的分歧（StockOptionLevel vs OverTime 作为首要因素）。前者主要归因于过采样策略和超参数优化的差异，后者则需要更深入的方法论对比。

这一差距恰好说明了研究者专业判断的价值：过采样策略的选择（ADASYN vs SMOTE）、超参数搜索空间的设计（TPE）、以及多数据集交叉验证，都是 AI 自动化流程难以替代的研究决策。AI 提供快速基线，研究者提供方法创新。

查看完整AI分析过程 →