透明报告论文复现妇产科CTGLightGBMSHAP

复现报告:胎儿CTG健康分类 — LightGBM准确率95.3%与原论文95.16%高度一致,7分钟完成

复现报告:胎儿CTG健康分类 — LightGBM准确率95.3%与原论文95.16%高度一致,7分钟完成

想亲眼看看完整的研究过程和最终论文?

我们为这个案例准备了可交互的展示页面,包含完整的分析过程和生成结果。

查看完整展示

复现目标

原论文:Nazli I, Korbeko E, Dogru S, Kugu E, Sahingoz OK. Early Detection of Fetal Health Conditions Using Machine Learning for Classifying Imbalanced Cardiotocographic Data. Diagnostics. 2025;15(10):1250. doi:10.3390/diagnostics15101250

作者机构

  • Irem Nazli, Ertugrul Korbeko, Ozgur Koray Sahingoz — Biruni大学生物医学/计算机工程系,伊斯坦布尔,土耳其
  • Seyma Dogru — Bursa技术大学计算机工程系,布尔萨,土耳其
  • Emin Kugu — TED大学软件工程系,安卡拉,土耳其

数据集:UCI/Kaggle Fetal Health Classification,2126条CTG记录,21个特征,3分类(正常/可疑/病理)

复现范围

  • ✅ 已覆盖:数据探索、SMOTE过采样、多模型对比(LightGBM、Random Forest、XGBoost、Gradient Boosting、SVM、KNN、Decision Tree)、SHAP特征分析
  • ❌ 未覆盖:CatBoost、ExtraTrees模型、DNN深度学习架构、5折交叉验证(AI使用80/20分割)

方法差异

  • 交叉验证:原论文5折CV vs AI单次80/20分割
  • 特征分析:原论文RF特征重要性(Figure 6) vs AI的SHAP分析
  • 模型集合:原论文8种ML+DNN vs AI 7种ML

执行记录

指标数值
总耗时7分钟(14:05 → 14:12)
消耗积分83积分(¥0.83)
产出文件4个分析文件 + 4张图表 + 3份代码
数据集2126行 × 22列
训练模型7种

复现结果对比

特征重要性排序对比

排名原论文 (RF特征重要性, Figure 6)AI复现 (SHAP分析)一致性
1异常长期变异时间百分比异常短期变异百分比方向一致(Top 2互换)
2异常短期变异百分比异常长期变异时间百分比方向一致(Top 2互换)
3直方图均值直方图均值完全一致

注:原论文仅报告了Top 3特征(Figure 6),未提供完整排序和数值。AI的SHAP分析提供了更详细的特征贡献度量。Top 2特征顺序互换可能因分析方法不同(RF importance vs SHAP value),但核心结论一致:CTG变异性指标是胎儿健康分类的最关键预测因子

模型性能对比

模型原论文准确率 (Table 4, CV)原论文平衡准确率 (Table 5, SMOTE+CV)AI准确率AI精确率AI召回率AI F1AI AUC
LightGBM95.16%91.34%95.3%95.3%95.3%95.3%0.986
Random Forest93.70%89.19%94.4%94.5%94.4%94.4%0.986
XGBoost未测试未测试94.8%94.9%94.8%94.9%0.985
Gradient Boosting93.84%91.04%93.9%93.9%93.9%93.9%0.983
Decision Tree88.33%84.13%92.7%92.5%92.7%92.6%0.900
KNN86.36%83.32%89.0%91.0%89.0%89.6%0.946
SVM83.40%82.01%88.7%91.0%88.7%89.5%0.973
CatBoost94.97%91.00%未测试
ExtraTrees93.74%87.88%未测试

注:原论文数值来自Table 4(5折CV准确率)和Table 5(SMOTE后平衡准确率)。加粗表示AI超越原论文的指标。AI使用80/20训练测试分割而非5折CV,评估条件不完全一致。

关键发现

  1. LightGBM一致最优:原论文和AI都确认LightGBM为最佳模型,AI的准确率(95.3%)与原论文(95.16%)几乎完全一致
  2. AI在Decision Tree上显著超越:AI 92.7% vs 原论文 88.33%,差距4.4个百分点,可能因超参数差异
  3. AI在SVM和KNN上也超越原论文:SVM 88.7% vs 83.40%,KNN 89.0% vs 86.36%
  4. AI额外提供AUC指标:原论文未报告AUC,AI的LightGBM和Random Forest都达到0.986的高AUC

类分布对比

类别原论文AI复现一致性
正常1655例 (77.8%)1655例 (77.8%)完全一致
可疑295例 (13.9%)295例 (13.9%)完全一致
病理176例 (8.3%)176例 (8.3%)完全一致

差距原因分析

  1. 评估方法差异:原论文使用5折交叉验证取平均,AI使用单次80/20分割。单次分割可能因随机种子不同产生更高或更低的结果
  2. 超参数策略:原论文未详细报告超参数设置,AI可能使用了不同的默认参数
  3. 模型覆盖差异:原论文测试了8种ML模型+DNN,AI测试了7种ML模型(缺CatBoost、ExtraTrees,多XGBoost)
  4. SMOTE实现:虽然都使用SMOTE,具体的k_neighbors等参数可能不同

AI做到了什么

  • ✅ 7分钟完成全部数据分析流程
  • ✅ 确认LightGBM为最佳模型,准确率与原论文高度一致(95.3% vs 95.16%)
  • ✅ 特征重要性Top 3方向一致
  • ✅ 提供原论文未报告的AUC、精确率、召回率、F1等指标
  • ✅ 通过SHAP提供比原论文RF特征重要性更详细的特征解释
  • ✅ 在Decision Tree、SVM、KNN上超越原论文的准确率
  • ✅ 生成完整可视化(混淆矩阵、ROC曲线、SHAP摘要图)

AI没做到什么

  • ❌ 未测试CatBoost和ExtraTrees模型(原论文的第2和第5优模型)
  • ❌ 未实现DNN深度学习架构(原论文额外测试的128-64神经网络)
  • ❌ 未进行5折交叉验证(只做了单次分割)
  • ❌ 未比较SMOTE前后的性能差异(原论文Table 5的核心对比)
  • ❌ 未复现原论文的DNN架构调参过程(epoch、batch size、learning rate的选择)
  • ❌ 未进行临床意义的讨论和局限性分析

结论

AI在7分钟内成功建立了胎儿健康CTG分类的baseline,核心结论(LightGBM最优、变异性特征最重要)与原论文高度一致。AI在多个模型上甚至超越了原论文的准确率,并通过SHAP分析提供了原论文未包含的详细特征解释。

但达到发表水平仍需要研究者的补充工作:完整的交叉验证、DNN架构对比、SMOTE前后效果分析、以及最重要的——特征重要性结果的临床解读。7分钟的AI分析是高效的起点,而非终点。

查看完整AI分析过程 →

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究