复现报告：胎儿CTG健康分类 — LightGBM准确率95.3%与原论文95.16%高度一致，7分钟完成

复现目标

原论文：Nazli I, Korbeko E, Dogru S, Kugu E, Sahingoz OK. Early Detection of Fetal Health Conditions Using Machine Learning for Classifying Imbalanced Cardiotocographic Data. Diagnostics. 2025;15(10):1250. doi:10.3390/diagnostics15101250

作者机构：

Irem Nazli, Ertugrul Korbeko, Ozgur Koray Sahingoz — Biruni大学生物医学/计算机工程系，伊斯坦布尔，土耳其
Seyma Dogru — Bursa技术大学计算机工程系，布尔萨，土耳其
Emin Kugu — TED大学软件工程系，安卡拉，土耳其

数据集：UCI/Kaggle Fetal Health Classification，2126条CTG记录，21个特征，3分类（正常/可疑/病理）

复现范围：

✅ 已覆盖：数据探索、SMOTE过采样、多模型对比（LightGBM、Random Forest、XGBoost、Gradient Boosting、SVM、KNN、Decision Tree）、SHAP特征分析
❌ 未覆盖：CatBoost、ExtraTrees模型、DNN深度学习架构、5折交叉验证（AI使用80/20分割）

方法差异：

交叉验证：原论文5折CV vs AI单次80/20分割
特征分析：原论文RF特征重要性（Figure 6） vs AI的SHAP分析
模型集合：原论文8种ML+DNN vs AI 7种ML

执行记录

指标	数值
总耗时	7分钟（14:05 → 14:12）
消耗积分	83积分（¥0.83）
产出文件	4个分析文件 + 4张图表 + 3份代码
数据集	2126行 × 22列
训练模型	7种

复现结果对比

特征重要性排序对比

排名	原论文 (RF特征重要性, Figure 6)	AI复现 (SHAP分析)	一致性
1	异常长期变异时间百分比	异常短期变异百分比	方向一致（Top 2互换）
2	异常短期变异百分比	异常长期变异时间百分比	方向一致（Top 2互换）
3	直方图均值	直方图均值	完全一致

注：原论文仅报告了Top 3特征（Figure 6），未提供完整排序和数值。AI的SHAP分析提供了更详细的特征贡献度量。Top 2特征顺序互换可能因分析方法不同（RF importance vs SHAP value），但核心结论一致：CTG变异性指标是胎儿健康分类的最关键预测因子。

模型性能对比

模型	原论文准确率 (Table 4, CV)	原论文平衡准确率 (Table 5, SMOTE+CV)	AI准确率	AI精确率	AI召回率	AI F1	AI AUC
LightGBM	95.16%	91.34%	95.3%	95.3%	95.3%	95.3%	0.986
Random Forest	93.70%	89.19%	94.4%	94.5%	94.4%	94.4%	0.986
XGBoost	未测试	未测试	94.8%	94.9%	94.8%	94.9%	0.985
Gradient Boosting	93.84%	91.04%	93.9%	93.9%	93.9%	93.9%	0.983
Decision Tree	88.33%	84.13%	92.7%	92.5%	92.7%	92.6%	0.900
KNN	86.36%	83.32%	89.0%	91.0%	89.0%	89.6%	0.946
SVM	83.40%	82.01%	88.7%	91.0%	88.7%	89.5%	0.973
CatBoost	94.97%	91.00%	未测试	—	—	—	—
ExtraTrees	93.74%	87.88%	未测试	—	—	—	—

注：原论文数值来自Table 4（5折CV准确率）和Table 5（SMOTE后平衡准确率）。加粗表示AI超越原论文的指标。AI使用80/20训练测试分割而非5折CV，评估条件不完全一致。

关键发现

LightGBM一致最优：原论文和AI都确认LightGBM为最佳模型，AI的准确率（95.3%）与原论文（95.16%）几乎完全一致
AI在Decision Tree上显著超越：AI 92.7% vs 原论文 88.33%，差距4.4个百分点，可能因超参数差异
AI在SVM和KNN上也超越原论文：SVM 88.7% vs 83.40%，KNN 89.0% vs 86.36%
AI额外提供AUC指标：原论文未报告AUC，AI的LightGBM和Random Forest都达到0.986的高AUC

类分布对比

类别	原论文	AI复现	一致性
正常	1655例 (77.8%)	1655例 (77.8%)	完全一致
可疑	295例 (13.9%)	295例 (13.9%)	完全一致
病理	176例 (8.3%)	176例 (8.3%)	完全一致

差距原因分析

评估方法差异：原论文使用5折交叉验证取平均，AI使用单次80/20分割。单次分割可能因随机种子不同产生更高或更低的结果
超参数策略：原论文未详细报告超参数设置，AI可能使用了不同的默认参数
模型覆盖差异：原论文测试了8种ML模型+DNN，AI测试了7种ML模型（缺CatBoost、ExtraTrees，多XGBoost）
SMOTE实现：虽然都使用SMOTE，具体的k_neighbors等参数可能不同

AI做到了什么

✅ 7分钟完成全部数据分析流程
✅ 确认LightGBM为最佳模型，准确率与原论文高度一致（95.3% vs 95.16%）
✅ 特征重要性Top 3方向一致
✅ 提供原论文未报告的AUC、精确率、召回率、F1等指标
✅ 通过SHAP提供比原论文RF特征重要性更详细的特征解释
✅ 在Decision Tree、SVM、KNN上超越原论文的准确率
✅ 生成完整可视化（混淆矩阵、ROC曲线、SHAP摘要图）

AI没做到什么

❌ 未测试CatBoost和ExtraTrees模型（原论文的第2和第5优模型）
❌ 未实现DNN深度学习架构（原论文额外测试的128-64神经网络）
❌ 未进行5折交叉验证（只做了单次分割）
❌ 未比较SMOTE前后的性能差异（原论文Table 5的核心对比）
❌ 未复现原论文的DNN架构调参过程（epoch、batch size、learning rate的选择）
❌ 未进行临床意义的讨论和局限性分析

结论

AI在7分钟内成功建立了胎儿健康CTG分类的baseline，核心结论（LightGBM最优、变异性特征最重要）与原论文高度一致。AI在多个模型上甚至超越了原论文的准确率，并通过SHAP分析提供了原论文未包含的详细特征解释。

但达到发表水平仍需要研究者的补充工作：完整的交叉验证、DNN架构对比、SMOTE前后效果分析、以及最重要的——特征重要性结果的临床解读。7分钟的AI分析是高效的起点，而非终点。

查看完整AI分析过程 →