透明报告数据验证学术诚信

AI论文数据可靠性报告：我们如何验证每一个统计数字

2026-03-28

为什么写这篇报告

AI 生成论文最大的风险不是文笔差——是编造数据。

当 AI 写下"P < 0.001"或"OR = 2.34 (95% CI: 1.56-3.51)"时，这些数字是真的吗？还是 AI 凭空捏造了一个看起来合理的数值？

我们对此进行了系统性的验证，并公开结果。

验证方法

对每篇 AI 生成的论文，我们逐一核查：

提取论文正文中所有统计数字（P值、置信区间、OR/HR、百分比等）
追溯每个数字到 stats_for_tex.txt（分析代码的结构化输出）
比对：论文中的数字是否与分析代码输出完全一致
标记：无法追溯的数字判定为「编造」

一个数字只有在分析代码中有对应输出时才算「可验证」。

验证结果

数据集	领域	数据点数	可验证数	准确率
D05 放射科	医学影像	102	102	100%
D04 微生物组	肠道菌群	119	119	100%
D03 阿尔茨海默	神经科学	68	68	100%
D07 儿童发育	儿科	108	106	98.1%

关键机制：stats_for_tex.txt

我们的核心防线是一个叫 stats_for_tex.txt 的中间文件。AI 在分析阶段将所有统计结果写入这个文件，写论文时只允许从这个文件中引用数字。

这意味着：

分析代码输出什么，论文就写什么
如果某个分析没有做（比如生存分析），对应位置标记为 === NO DATA ===，AI 被禁止在论文中编造该部分内容

已知局限

我们诚实地说明目前方法的不足：

D08 数据集存在叙事性编造：当数据是叙事性质（非结构化表格），AI 可能在解读层面编造因果关系。这是 LLM 的根本性行为，尚无完美解决方案。
文献模式的引用验证有限：从网络检索的文献数据，部分原文引用仅凭摘要无法完全验证。
验证由 AI 辅助完成：审计过程本身使用了 AI 辅助，存在 AI 自评偏倚的可能。

我们的态度

我们不认为 AI 可以替代研究者的学术判断。AI 生成的是研究初稿，每一篇都需要人工审核。

我们能做的是：让每个数字可追溯、让每个引用有来源、让每个局限被说明。

创新交给医生和研究者，实现交给 One Small Step。

这是我们对学术诚信的承诺。

数据安全与使用说明

✓你上传的数据仅用于当次分析，不会用于模型训练或与第三方共享。
✓所有案例均经作者授权后发布，敏感信息已做脱敏处理。
✓AI 生成的论文仅供参考，最终发表前请由领域专家审核。

上传你的数据，体验同样的效果

从 CSV 到完整论文，只需一步。免费开始你的 AI 辅助科研之旅。

免费注册浏览更多展示

免费开始你的研究