复现目标
原论文:Nazli I, Korbeko E, Dogru S, Kugu E, Sahingoz OK. Early Detection of Fetal Health Conditions Using Machine Learning for Classifying Imbalanced Cardiotocographic Data. Diagnostics. 2025;15(10):1250. doi:10.3390/diagnostics15101250
作者机构:
- Irem Nazli, Ertugrul Korbeko, Ozgur Koray Sahingoz — Biruni大学生物医学/计算机工程系,伊斯坦布尔,土耳其
- Seyma Dogru — Bursa技术大学计算机工程系,布尔萨,土耳其
- Emin Kugu — TED大学软件工程系,安卡拉,土耳其
数据集:UCI/Kaggle Fetal Health Classification,2126条CTG记录,21个特征,3分类(正常/可疑/病理)
复现范围:
- ✅ 已覆盖:数据探索、SMOTE过采样、多模型对比(LightGBM、Random Forest、XGBoost、Gradient Boosting、SVM、KNN、Decision Tree)、SHAP特征分析
- ❌ 未覆盖:CatBoost、ExtraTrees模型、DNN深度学习架构、5折交叉验证(AI使用80/20分割)
方法差异:
- 交叉验证:原论文5折CV vs AI单次80/20分割
- 特征分析:原论文RF特征重要性(Figure 6) vs AI的SHAP分析
- 模型集合:原论文8种ML+DNN vs AI 7种ML
执行记录
| 指标 | 数值 |
|---|---|
| 总耗时 | 7分钟(14:05 → 14:12) |
| 消耗积分 | 83积分(¥0.83) |
| 产出文件 | 4个分析文件 + 4张图表 + 3份代码 |
| 数据集 | 2126行 × 22列 |
| 训练模型 | 7种 |
复现结果对比
特征重要性排序对比
| 排名 | 原论文 (RF特征重要性, Figure 6) | AI复现 (SHAP分析) | 一致性 |
|---|---|---|---|
| 1 | 异常长期变异时间百分比 | 异常短期变异百分比 | 方向一致(Top 2互换) |
| 2 | 异常短期变异百分比 | 异常长期变异时间百分比 | 方向一致(Top 2互换) |
| 3 | 直方图均值 | 直方图均值 | 完全一致 |
注:原论文仅报告了Top 3特征(Figure 6),未提供完整排序和数值。AI的SHAP分析提供了更详细的特征贡献度量。Top 2特征顺序互换可能因分析方法不同(RF importance vs SHAP value),但核心结论一致:CTG变异性指标是胎儿健康分类的最关键预测因子。
模型性能对比
| 模型 | 原论文准确率 (Table 4, CV) | 原论文平衡准确率 (Table 5, SMOTE+CV) | AI准确率 | AI精确率 | AI召回率 | AI F1 | AI AUC |
|---|---|---|---|---|---|---|---|
| LightGBM | 95.16% | 91.34% | 95.3% | 95.3% | 95.3% | 95.3% | 0.986 |
| Random Forest | 93.70% | 89.19% | 94.4% | 94.5% | 94.4% | 94.4% | 0.986 |
| XGBoost | 未测试 | 未测试 | 94.8% | 94.9% | 94.8% | 94.9% | 0.985 |
| Gradient Boosting | 93.84% | 91.04% | 93.9% | 93.9% | 93.9% | 93.9% | 0.983 |
| Decision Tree | 88.33% | 84.13% | 92.7% | 92.5% | 92.7% | 92.6% | 0.900 |
| KNN | 86.36% | 83.32% | 89.0% | 91.0% | 89.0% | 89.6% | 0.946 |
| SVM | 83.40% | 82.01% | 88.7% | 91.0% | 88.7% | 89.5% | 0.973 |
| CatBoost | 94.97% | 91.00% | 未测试 | — | — | — | — |
| ExtraTrees | 93.74% | 87.88% | 未测试 | — | — | — | — |
注:原论文数值来自Table 4(5折CV准确率)和Table 5(SMOTE后平衡准确率)。加粗表示AI超越原论文的指标。AI使用80/20训练测试分割而非5折CV,评估条件不完全一致。
关键发现
- LightGBM一致最优:原论文和AI都确认LightGBM为最佳模型,AI的准确率(95.3%)与原论文(95.16%)几乎完全一致
- AI在Decision Tree上显著超越:AI 92.7% vs 原论文 88.33%,差距4.4个百分点,可能因超参数差异
- AI在SVM和KNN上也超越原论文:SVM 88.7% vs 83.40%,KNN 89.0% vs 86.36%
- AI额外提供AUC指标:原论文未报告AUC,AI的LightGBM和Random Forest都达到0.986的高AUC
类分布对比
| 类别 | 原论文 | AI复现 | 一致性 |
|---|---|---|---|
| 正常 | 1655例 (77.8%) | 1655例 (77.8%) | 完全一致 |
| 可疑 | 295例 (13.9%) | 295例 (13.9%) | 完全一致 |
| 病理 | 176例 (8.3%) | 176例 (8.3%) | 完全一致 |
差距原因分析
- 评估方法差异:原论文使用5折交叉验证取平均,AI使用单次80/20分割。单次分割可能因随机种子不同产生更高或更低的结果
- 超参数策略:原论文未详细报告超参数设置,AI可能使用了不同的默认参数
- 模型覆盖差异:原论文测试了8种ML模型+DNN,AI测试了7种ML模型(缺CatBoost、ExtraTrees,多XGBoost)
- SMOTE实现:虽然都使用SMOTE,具体的k_neighbors等参数可能不同
AI做到了什么
- ✅ 7分钟完成全部数据分析流程
- ✅ 确认LightGBM为最佳模型,准确率与原论文高度一致(95.3% vs 95.16%)
- ✅ 特征重要性Top 3方向一致
- ✅ 提供原论文未报告的AUC、精确率、召回率、F1等指标
- ✅ 通过SHAP提供比原论文RF特征重要性更详细的特征解释
- ✅ 在Decision Tree、SVM、KNN上超越原论文的准确率
- ✅ 生成完整可视化(混淆矩阵、ROC曲线、SHAP摘要图)
AI没做到什么
- ❌ 未测试CatBoost和ExtraTrees模型(原论文的第2和第5优模型)
- ❌ 未实现DNN深度学习架构(原论文额外测试的128-64神经网络)
- ❌ 未进行5折交叉验证(只做了单次分割)
- ❌ 未比较SMOTE前后的性能差异(原论文Table 5的核心对比)
- ❌ 未复现原论文的DNN架构调参过程(epoch、batch size、learning rate的选择)
- ❌ 未进行临床意义的讨论和局限性分析
结论
AI在7分钟内成功建立了胎儿健康CTG分类的baseline,核心结论(LightGBM最优、变异性特征最重要)与原论文高度一致。AI在多个模型上甚至超越了原论文的准确率,并通过SHAP分析提供了原论文未包含的详细特征解释。
但达到发表水平仍需要研究者的补充工作:完整的交叉验证、DNN架构对比、SMOTE前后效果分析、以及最重要的——特征重要性结果的临床解读。7分钟的AI分析是高效的起点,而非终点。
