透明报告论文复现丙型肝炎集成学习SHAP

复现报告:丙型肝炎Stacking元模型检测 — SHAP Top 5预测因子完全一致,RF/XGBoost准确率反超原论文

复现报告:丙型肝炎Stacking元模型检测 — SHAP Top 5预测因子完全一致,RF/XGBoost准确率反超原论文

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Sharma, A., Khade, T., & Satapathy, S.M. (2025). A cross dataset meta-model for hepatitis C detection using multi-dimensional pre-clustering. Scientific Reports, 15, 7183.

  • DOI: 10.1038/s41598-025-91298-0
  • 机构:印度韦洛尔理工学院(VIT)计算机科学与工程学院
  • 通讯作者:Shashank Mouli Satapathy

数据集:UCI HCV Data(615 samples, 13 features),原论文还额外使用了 NHANES 数据集(254 samples)构建 869 例混合数据集。

复现范围

覆盖未覆盖
5种基础模型(RF, XGBoost, LGBM, KNN, SVC)K-Means + K-Modes 多维预聚类
Stacking 元模型(相同架构)NHANES 数据集(无公开可下载版本)
SHAP 特征重要性分析K-Modes 聚类特征生成
SMOTE 过采样消融实验(Table 8, 9)
10 折分层交叉验证

方法差异:原论文核心创新是将连续特征通过 K-Means 分桶为类别特征,再通过 K-Modes 聚类生成新特征(kmodes_predicted),作为额外输入喂入分类模型。AI 复现未包含此步骤,使用标准 SMOTE 代替。

执行记录

指标数值
耗时8 分钟
积分消耗80.51 积分(¥0.81)
产出文件数23
可视化图表9 张
代码文件6 个
模型数量6 种(5 基础 + 1 Stacking)
交叉验证10 折分层

复现结果对比

特征重要性排序(SHAP Top 5)

排名原论文(Observations 章节)AI 复现(SHAP beeswarm)方向一致性
1AST(天冬氨酸转氨酶)AST↑ HCV+
2GGT(γ-谷氨酰转肽酶)GGT↑ HCV+
3BIL(胆红素)BIL↑ HCV+
4CHOL(胆固醇)CHOL↓ HCV+(反向)
5ALB(白蛋白)ALB↓ HCV+(反向)

5/5 完全一致,包括方向性。AST、GGT、BIL 升高指向 HCV 阳性,CHOL、ALB 降低指向 HCV 阳性——与临床已知的肝功能受损指标完全吻合。

模型性能对比

模型原论文 Accuracy来源AI AccuracyAI AUC-ROC对比
Random Forest94.25%Table 7(含预聚类)95.93%0.9912AI +1.68%
XGBoost93.10%Table 795.93%0.9820AI +2.83%
LightGBM93.10%Table 795.93%0.9885AI +2.83%
SVC90.80%Table 795.12%0.9851AI +4.32%
KNN90.80%Table 792.68%0.9509AI +1.88%
Stacking 元模型94.83%Table 795.12%0.9879AI +0.29%

:原论文 Table 7 数据是含预聚类步骤的结果(即论文最佳配置)。无预聚类的 baseline 见 Table 6(如 RF baseline = 93.68%)。AI 在所有模型上均高于原论文,但这不代表方法更优——原论文使用 869 例混合数据集(更大但可能更复杂),AI 使用 615 例 UCI 单数据集。

描述性统计

类别样本数占比
Blood Donor(健康对照)37260.5%
Hepatitis8513.8%
Suspect Blood Donor558.9%
Fibrosis538.6%
Cirrhosis508.1%

二分类后:HCV 阴性 427 例(69.4%),HCV 阳性 188 例(30.6%),类别比约 2.3:1。SMOTE 后训练集平衡为 342:342。

差距原因分析

  1. 数据集规模与复杂度:原论文混合 UCI + NHANES(869例,跨数据源),AI 仅用 UCI(615例)。跨数据源引入的噪声可能解释原论文性能略低。
  2. 预聚类特征工程:原论文消融实验(Table 8)显示预聚类仅带来 +0.57% 提升(93.67% → 94.25%),说明预聚类不是性能差距的主因。
  3. 超参数空间:两者都用 GridSearchCV,但搜索空间可能不同。

AI 做到了什么

  • 8 分钟内完成从数据预处理到 SHAP 分析的完整 pipeline
  • 6 种模型的训练、调参和评估(含 10 折交叉验证)
  • SHAP Top 5 特征排序与原论文完全一致
  • 所有模型准确率达到或超过原论文水平
  • 9 张发表级可视化图表
  • 可复现的完整代码

AI 没做到什么

  • 未实现多维预聚类:原论文核心创新是 K-Means 分桶 → K-Modes 聚类 → 生成 kmodes_predicted 特征。这种「无监督→有监督」的两阶段方法需要研究者设计,AI 未自主尝试
  • 未融合 NHANES 数据集:原论文构建跨数据源混合数据集需要对齐不同来源的特征定义
  • 未做消融实验:原论文 Table 8-9 系统评估了各组件贡献,AI 未自主设计消融方案
  • 未做多类别分类:原论文讨论了 HCV 分期预测(Hepatitis/Fibrosis/Cirrhosis 细分),AI 仅做二分类

结论

AI 在 8 分钟内成功复现了原论文的核心分析流程,SHAP 特征重要性排序 Top 5 完全一致,各模型准确率达到或超过原论文水平。但原论文的方法论贡献——多维预聚类框架和跨数据源融合策略——需要研究者的专业设计和创新能力,这部分无法被 AI 自动替代。

积分消耗:80.51 积分(¥0.81),耗时 8 分钟。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究