透明报告数据验证学术诚信

AI论文数据可靠性报告:我们如何验证每一个统计数字

为什么写这篇报告

AI 生成论文最大的风险不是文笔差——是编造数据。

当 AI 写下"P < 0.001"或"OR = 2.34 (95% CI: 1.56-3.51)"时,这些数字是真的吗?还是 AI 凭空捏造了一个看起来合理的数值?

我们对此进行了系统性的验证,并公开结果。

验证方法

对每篇 AI 生成的论文,我们逐一核查:

  1. 提取论文正文中所有统计数字(P值、置信区间、OR/HR、百分比等)
  2. 追溯每个数字到 stats_for_tex.txt(分析代码的结构化输出)
  3. 比对:论文中的数字是否与分析代码输出完全一致
  4. 标记:无法追溯的数字判定为「编造」

一个数字只有在分析代码中有对应输出时才算「可验证」。

验证结果

数据集领域数据点数可验证数准确率
D05 放射科医学影像102102100%
D04 微生物组肠道菌群119119100%
D03 阿尔茨海默神经科学6868100%
D07 儿童发育儿科10810698.1%

关键机制:stats_for_tex.txt

我们的核心防线是一个叫 stats_for_tex.txt 的中间文件。AI 在分析阶段将所有统计结果写入这个文件,写论文时只允许从这个文件中引用数字。

这意味着:

  • 分析代码输出什么,论文就写什么
  • 如果某个分析没有做(比如生存分析),对应位置标记为 === NO DATA ===,AI 被禁止在论文中编造该部分内容

已知局限

我们诚实地说明目前方法的不足:

  • D08 数据集存在叙事性编造:当数据是叙事性质(非结构化表格),AI 可能在解读层面编造因果关系。这是 LLM 的根本性行为,尚无完美解决方案。
  • 文献模式的引用验证有限:从网络检索的文献数据,部分原文引用仅凭摘要无法完全验证。
  • 验证由 AI 辅助完成:审计过程本身使用了 AI 辅助,存在 AI 自评偏倚的可能。

我们的态度

我们不认为 AI 可以替代研究者的学术判断。AI 生成的是研究初稿,每一篇都需要人工审核。

我们能做的是:让每个数字可追溯、让每个引用有来源、让每个局限被说明。

创新交给医生和研究者,实现交给 One Small Step。

这是我们对学术诚信的承诺。

数据安全与使用说明

  • 你上传的数据仅用于当次分析,不会用于模型训练或与第三方共享。
  • 所有案例均经作者授权后发布,敏感信息已做脱敏处理。
  • AI 生成的论文仅供参考,最终发表前请由领域专家审核。

上传你的数据,体验同样的效果

从 CSV 到完整论文,只需一步。免费开始你的 AI 辅助科研之旅。

免费开始你的研究