透明报告论文复现肝病预测集成学习SHAP

复现报告:ILPD肝病预测集成学习 — 核心Top 5预测因子完全一致,4分钟完成

复现报告:ILPD肝病预测集成学习 — 核心Top 5预测因子完全一致,4分钟完成

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:El Atifi W, El Rhazouani O, Khan FM, Sekkat H. Optimizing ensemble machine learning models for accurate liver disease prediction in healthcare. PLOS ONE. 2025;20(8):e0330899.

作者与机构

  • W. El Atifi — Hassan First University of Settat, Morocco; Department of Radiotherapy, Hospital Center Ibn Rochd
  • O. El Rhazouani — Hassan First University of Settat, Morocco
  • Fida Muhammad Khan — Qurtuba University of Science and Information Technology, Peshawar, Pakistan
  • H. Sekkat — Hassan First University of Settat, Morocco

数据集:Indian Liver Patient Dataset (ILPD),来源 Kaggle / UCI ML Repository,583 例患者(416 例肝病,167 例非肝病),10 个临床特征。

复现范围

  • ✅ 覆盖:数据预处理、集成学习模型训练(Random Forest、AdaBoost、Gradient Boosting)、模型性能评估、特征重要性分析
  • ✅ 额外:Logistic Regression 和 XGBoost 模型、SHAP 可解释性分析(原论文未做 SHAP)
  • ❌ 未覆盖:RandomizedSearchCV + GridSearchCV 两阶段超参数调优、特征选择优化

方法差异

  • 原论文使用两阶段超参数调优(RandomizedSearchCV → GridSearchCV),AI 使用默认参数
  • 原论文进行了特征选择(保留 7 个特征),AI 使用全部 10 个特征
  • AI 额外做了 SHAP 可解释性分析,这是原论文未涉及的

执行记录

指标数值
总耗时4 分钟
产出文件数7 个
模型数量5 种
交叉验证10 折
积分消耗56.2 积分(¥0.56)
缺失值处理Albumin_and_Globulin_Ratio 列 4 个缺失值,中位数填充

复现结果对比

特征重要性排序对比

排序原论文关键预测特征(Results section)AI SHAP Top 特征一致性
1Total BilirubinTotal Bilirubin✅ 一致
2Direct BilirubinDirect Bilirubin✅ 一致
3Alkaline PhosphataseAlkaline Phosphotase✅ 一致
4Alamine AminotransferaseAlamine Aminotransferase✅ 一致
5Albumin / AG RatioAlbumin / AG Ratio✅ 一致

核心结论高度一致:胆红素指标(Total Bilirubin, Direct Bilirubin)是最强预测因子,肝酶指标(ALP, ALT)次之,白蛋白相关指标(Albumin, AG Ratio)排第三层级。Top 5 特征排序完全吻合。

模型性能对比

模型原论文 AccuracyAI Accuracy原论文 AUCAI AUC-ROC原论文数据来源
Random Forest0.85170.72710.850.7561Results section
AdaBoost未单独报告0.7031未单独报告0.7295
Gradient Boosting未单独报告0.7013未单独报告0.7287
Logistic Regression0.72540.7538原论文未使用此模型
XGBoost0.70470.7463原论文未使用此模型

注释:原论文仅详细报告了 Random Forest(经两阶段超参数调优后的最优模型)的完整指标,AdaBoost 和 Gradient Boosting 描述为"relatively high performances"但未给出具体数字。

AI各模型详细指标

模型AccuracyPrecisionRecallF1-ScoreAUC-ROC
Random Forest0.72710.77370.87250.81970.7561
Logistic Regression0.72540.75040.92280.82700.7538
XGBoost0.70470.76930.83900.80120.7463
AdaBoost0.70310.75700.86540.80530.7295
Gradient Boosting0.70130.75650.85820.80370.7287

Logistic Regression 在 Recall(0.9228)和 F1-Score(0.8270)上表现最佳,适合医疗筛查场景(低漏诊率优先)。

描述性统计

统计项原论文AI 复现
样本量583583
肝病患者数416 (71.4%)416 (71.4%)
非肝病患者数167 (28.6%)167 (28.6%)
男性患者数441441
女性患者数142142
缺失值AG Ratio 列 4 个AG Ratio 列 4 个,中位数填充

差距原因分析

Random Forest 准确率差距(85.17% vs 72.71%,差 12.5 个百分点)主要源于以下方法学差异:

  1. 超参数调优深度:原论文使用 RandomizedSearchCV 广搜 + GridSearchCV 精搜的两阶段策略,这是该论文的核心方法论贡献。AI 使用默认或基础参数,未进行同等深度的调优。
  2. 特征选择:原论文从 10 个特征中选择了 7 个最相关特征建模,AI 使用全部 10 个特征,多余特征可能引入噪声。
  3. 评估方式差异:AI 报告的是 10 折交叉验证的平均值,原论文可能报告的是最优 split 或调优后的最终模型在测试集上的单次表现。

ROC曲线对比

SHAP特征重要性

AI做到了什么

  • 4 分钟内完成 5 种模型的训练和 10 折交叉验证评估
  • 特征重要性排序与原论文完全一致(Top 5 吻合率 100%)
  • 额外完成了 SHAP 可解释性分析(原论文未做),提供了更细粒度的特征影响解读
  • 发现 Logistic Regression 在 Recall 上表现最优(0.9228),为医疗筛查场景提供了有价值的参考
  • 生成完整的分析报告和可复用的图表

AI没做到什么

  • 未实现两阶段超参数调优:这是原论文的核心方法论贡献,AI 仅使用默认参数,导致 Random Forest 准确率低约 12.5 个百分点
  • 未进行特征选择优化:原论文从 10 个特征中筛选了 7 个,AI 使用全部特征
  • 未处理类别不平衡:数据集肝病/非肝病比例 71.4%:28.6%,原论文和 AI 都未使用过采样技术,但这可能影响少数类的预测性能
  • 混淆矩阵分析不够深入:原论文给出了具体的 TP/TN/FP/FN 数字(94/107/20/15),AI 未详细列出
  • 临床解读缺失:特征重要性的医学解释(为什么胆红素是最强预测因子)需要肝病专业知识

结论

AI 在 4 分钟内验证了 El Atifi 等人研究的核心结论:胆红素指标和肝酶指标是肝病最强预测因子,Random Forest 是综合最优模型。特征重要性排序 Top 5 完全一致,证明了研究结论的可复现性。

性能差距(12.5 个百分点)源于超参数调优深度差异,这正是原论文的核心贡献——证明了系统化超参数调优对小样本数据集的重要性。AI 可以快速建立 baseline 验证结论方向,但达到发表水平的性能优化仍需研究者的专业判断和方法学创新。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究