复现报告：丙型肝炎Stacking元模型检测 — SHAP Top 5预测因子完全一致，RF/XGBoost准确率反超原论文

复现目标

原论文：Sharma, A., Khade, T., & Satapathy, S.M. (2025). A cross dataset meta-model for hepatitis C detection using multi-dimensional pre-clustering. Scientific Reports, 15, 7183.

DOI: 10.1038/s41598-025-91298-0
机构：印度韦洛尔理工学院（VIT）计算机科学与工程学院
通讯作者：Shashank Mouli Satapathy

数据集：UCI HCV Data（615 samples, 13 features），原论文还额外使用了 NHANES 数据集（254 samples）构建 869 例混合数据集。

复现范围：

覆盖	未覆盖
5种基础模型（RF, XGBoost, LGBM, KNN, SVC）	K-Means + K-Modes 多维预聚类
Stacking 元模型（相同架构）	NHANES 数据集（无公开可下载版本）
SHAP 特征重要性分析	K-Modes 聚类特征生成
SMOTE 过采样	消融实验（Table 8, 9）
10 折分层交叉验证	—

方法差异：原论文核心创新是将连续特征通过 K-Means 分桶为类别特征，再通过 K-Modes 聚类生成新特征（kmodes_predicted），作为额外输入喂入分类模型。AI 复现未包含此步骤，使用标准 SMOTE 代替。

执行记录

指标	数值
耗时	8 分钟
积分消耗	80.51 积分（¥0.81）
产出文件数	23
可视化图表	9 张
代码文件	6 个
模型数量	6 种（5 基础 + 1 Stacking）
交叉验证	10 折分层

复现结果对比

特征重要性排序（SHAP Top 5）

排名	原论文（Observations 章节）	AI 复现（SHAP beeswarm）	方向	一致性
1	AST（天冬氨酸转氨酶）	AST	↑ HCV+	✅
2	GGT（γ-谷氨酰转肽酶）	GGT	↑ HCV+	✅
3	BIL（胆红素）	BIL	↑ HCV+	✅
4	CHOL（胆固醇）	CHOL	↓ HCV+（反向）	✅
5	ALB（白蛋白）	ALB	↓ HCV+（反向）	✅

5/5 完全一致，包括方向性。AST、GGT、BIL 升高指向 HCV 阳性，CHOL、ALB 降低指向 HCV 阳性——与临床已知的肝功能受损指标完全吻合。

模型性能对比

模型	原论文 Accuracy	来源	AI Accuracy	AI AUC-ROC	对比
Random Forest	94.25%	Table 7（含预聚类）	95.93%	0.9912	AI +1.68%
XGBoost	93.10%	Table 7	95.93%	0.9820	AI +2.83%
LightGBM	93.10%	Table 7	95.93%	0.9885	AI +2.83%
SVC	90.80%	Table 7	95.12%	0.9851	AI +4.32%
KNN	90.80%	Table 7	92.68%	0.9509	AI +1.88%
Stacking 元模型	94.83%	Table 7	95.12%	0.9879	AI +0.29%

注：原论文 Table 7 数据是含预聚类步骤的结果（即论文最佳配置）。无预聚类的 baseline 见 Table 6（如 RF baseline = 93.68%）。AI 在所有模型上均高于原论文，但这不代表方法更优——原论文使用 869 例混合数据集（更大但可能更复杂），AI 使用 615 例 UCI 单数据集。

描述性统计

类别	样本数	占比
Blood Donor（健康对照）	372	60.5%
Hepatitis	85	13.8%
Suspect Blood Donor	55	8.9%
Fibrosis	53	8.6%
Cirrhosis	50	8.1%

二分类后：HCV 阴性 427 例（69.4%），HCV 阳性 188 例（30.6%），类别比约 2.3:1。SMOTE 后训练集平衡为 342:342。

差距原因分析

数据集规模与复杂度：原论文混合 UCI + NHANES（869例，跨数据源），AI 仅用 UCI（615例）。跨数据源引入的噪声可能解释原论文性能略低。
预聚类特征工程：原论文消融实验（Table 8）显示预聚类仅带来 +0.57% 提升（93.67% → 94.25%），说明预聚类不是性能差距的主因。
超参数空间：两者都用 GridSearchCV，但搜索空间可能不同。

AI 做到了什么

8 分钟内完成从数据预处理到 SHAP 分析的完整 pipeline
6 种模型的训练、调参和评估（含 10 折交叉验证）
SHAP Top 5 特征排序与原论文完全一致
所有模型准确率达到或超过原论文水平
9 张发表级可视化图表
可复现的完整代码

AI 没做到什么

未实现多维预聚类：原论文核心创新是 K-Means 分桶 → K-Modes 聚类 → 生成 kmodes_predicted 特征。这种「无监督→有监督」的两阶段方法需要研究者设计，AI 未自主尝试
未融合 NHANES 数据集：原论文构建跨数据源混合数据集需要对齐不同来源的特征定义
未做消融实验：原论文 Table 8-9 系统评估了各组件贡献，AI 未自主设计消融方案
未做多类别分类：原论文讨论了 HCV 分期预测（Hepatitis/Fibrosis/Cirrhosis 细分），AI 仅做二分类

结论

AI 在 8 分钟内成功复现了原论文的核心分析流程，SHAP 特征重要性排序 Top 5 完全一致，各模型准确率达到或超过原论文水平。但原论文的方法论贡献——多维预聚类框架和跨数据源融合策略——需要研究者的专业设计和创新能力，这部分无法被 AI 自动替代。

积分消耗：80.51 积分（¥0.81），耗时 8 分钟。

查看完整AI分析过程 →