73分钟，5110个病例的卒中预测研究，AI全自动完成

说实话，这次的结果让我有点意外。

我用了一个 Kaggle 上的公开卒中预测数据集——5110 个病例，每个人有年龄、血糖、BMI、高血压这些指标，还有最关键的：有没有得过卒中。数据集长这样：95%的人没卒中，只有5%阳性，典型的类别不平衡问题。

我做的事就两步：把 CSV 拖进去，然后输入了一段话：

基于上传的卒中预测数据集，训练5种模型（逻辑回归、随机森林、XGBoost、AdaBoost、梯度提升），使用SMOTE处理不平衡，做SHAP分析，写完整论文。

然后去吃了个午饭。回来的时候，38个文件已经躺在那了。

前8分钟——数据探索。它发现 BMI 有 201 个缺失值，自动做了插补。然后跑了一遍描述性统计：卒中组平均年龄 67.7 岁，非卒中组 42.0 岁。差距一目了然。

接下来20分钟——SMOTE 过采样、5种模型训练、10折交叉验证。AdaBoost 拿了测试集最高 AUC 0.796，Random Forest 和 XGBoost 的交叉验证 AUC 都到了 0.991。

然后是 SHAP——最有意思的部分。年龄排第一，平均血糖排第二，BMI 排第三。跟原论文完全一致。但从第四名开始就不一样了：AI 把高血压排到了第四，原论文排的是吸烟状态。

一个有意思的发现：卒中组里88.4%是已婚的，而非卒中组只有64.5%。不是说结婚会导致卒中——是因为卒中组平均年龄 67.7 岁，这个年龄段大部分人都结过婚了。这不是 AI 编的——你可以在分析代码里找到对应的描述性统计表格。

最让我惊讶的不是结果，是过程——你能看到 AI 每一步在想什么、为什么这么做。不是丢给你一个结果让你信，是把整个推理链摊开给你看。为什么选 SMOTE 而不是下采样？为什么用 10 折而不是 5 折？每个决策都有记录。

38 个文件，全部可以下载。LaTeX 源码你可以自己改，Python 代码你可以自己跑，.bib 文件你可以直接导入 Zotero。论文有 PDF 也有 Word 版本。

它还会自己审自己——33个数据点逐一核查，每条参考文献都验证 DOI。你拿到的不是"AI说的数"，是"代码算的数"。

73分钟，38个文件。论文、8张统计图表、分析代码、参考文献库、数据审计报告、文献审计报告。

适合什么人：手上有临床数据想快速出一版分析结果的研究生，或者想验证一个想法可不可行的青年医生。不适合什么人：如果你期望直接拿去投稿——它出的是初稿，模型调优和临床解读还是需要你自己来。

这个工具叫一小步（onesmallstep.cn）。创新交给医生和研究者，执行交给 AI。你的时间应该花在研究设计和学术判断上，那才是不可替代的。