为什么写这篇报告
AI 生成论文最大的风险不是文笔差——是编造数据。
当 AI 写下"P < 0.001"或"OR = 2.34 (95% CI: 1.56-3.51)"时,这些数字是真的吗?还是 AI 凭空捏造了一个看起来合理的数值?
我们对此进行了系统性的验证,并公开结果。
验证方法
对每篇 AI 生成的论文,我们逐一核查:
- 提取论文正文中所有统计数字(P值、置信区间、OR/HR、百分比等)
- 追溯每个数字到
stats_for_tex.txt(分析代码的结构化输出) - 比对:论文中的数字是否与分析代码输出完全一致
- 标记:无法追溯的数字判定为「编造」
一个数字只有在分析代码中有对应输出时才算「可验证」。
验证结果
| 数据集 | 领域 | 数据点数 | 可验证数 | 准确率 |
|---|---|---|---|---|
| D05 放射科 | 医学影像 | 102 | 102 | 100% |
| D04 微生物组 | 肠道菌群 | 119 | 119 | 100% |
| D03 阿尔茨海默 | 神经科学 | 68 | 68 | 100% |
| D07 儿童发育 | 儿科 | 108 | 106 | 98.1% |
关键机制:stats_for_tex.txt
我们的核心防线是一个叫 stats_for_tex.txt 的中间文件。AI 在分析阶段将所有统计结果写入这个文件,写论文时只允许从这个文件中引用数字。
这意味着:
- 分析代码输出什么,论文就写什么
- 如果某个分析没有做(比如生存分析),对应位置标记为
=== NO DATA ===,AI 被禁止在论文中编造该部分内容
已知局限
我们诚实地说明目前方法的不足:
- D08 数据集存在叙事性编造:当数据是叙事性质(非结构化表格),AI 可能在解读层面编造因果关系。这是 LLM 的根本性行为,尚无完美解决方案。
- 文献模式的引用验证有限:从网络检索的文献数据,部分原文引用仅凭摘要无法完全验证。
- 验证由 AI 辅助完成:审计过程本身使用了 AI 辅助,存在 AI 自评偏倚的可能。
我们的态度
我们不认为 AI 可以替代研究者的学术判断。AI 生成的是研究初稿,每一篇都需要人工审核。
我们能做的是:让每个数字可追溯、让每个引用有来源、让每个局限被说明。
创新交给医生和研究者,实现交给 One Small Step。
这是我们对学术诚信的承诺。