让GPT写了一篇完整的SCI文章，79%的审稿人没发现是AI写的

2025-08-22 来源：医咖会

【2025年8月8日更新：值医咖会9周年之际，赶快去医咖会APP限时领取基础会员权益，含28张基础课程券，各种科研课程随心看】

2025年7月，《American Journal of Emergency Medicine》发表了一篇文章，旨在调查专业审稿人是否能识别出GPT所生成的论文。

研究者要求ChatGPT-4o撰写了一篇医学SCI论文，发送给14位审稿人（之前担任过期刊编辑或审稿人），结果显示，11位审稿人（78.6%）没有发现稿件是AI生成的。

研究者让ChatGPT-4o生成的论文截图，全文可看：https://www.sciencedirect.com/science/article/pii/S0735675725004954

研究方法：让GPT撰写论文并发给审稿人

研究因未使用真实患者数据，故无需伦理委员会审批。研究采用了ChatGPT最新模型GPT-4o。

摘要按传统学术格式（引言、材料与方法、结果、结论）构建，字数限制约250词。最终的版本见上图。

审稿人评审论文

在研究的第二阶段，研究者将ChatGPT-4o撰写的稿件发送给14位评审人。这些评审人均曾担任过SCI-E索引期刊的审稿人或编辑，且根据Web of Science数据其H指数均≥5。

研究者事先告知评审人其评估的稿件有可能是AI生成，并邀请其自愿参与研究。所有评审人在参与前均签署了知情同意书。稿件通过Google Docs平台共享。在此过程中，未收集任何能识别评审人个人身份的信息。

评审人被要求以SCI-E期刊编辑或同行评审的标准对稿件进行评估。完成评估后，评审人需确认是否能识别出稿件为AI生成。对于作出肯定答复的评审人，研究者进一步邀请其说明判断依据。所有反馈均被完整记录并进行统计分析。

主要结果

本研究显示，由GPT-4o生成的学术稿件在接受14位评审人（均具有SCI-E索引期刊编辑或同行评审经验）的双重评估时呈现以下结果：

从编辑初审角度：

42.9%（6位）建议直接拒稿
42.9%（6位）认为可送交同行评审
14.3%（2位）认为达到编辑录用标准

从审稿人角度：

42.9%（6位）建议拒稿
28.6%（4位）要求重大修改
28.6%（4位）认同经小幅修改后可录用

78.6%（11位）评审人未能识别该稿件由AI生成，21.4%（3位）评审人判定其为AI生成文本。识别出的评审人指出论文存在以下AI特征：标准化的句式结构、模板化的表述、讨论内容流于表面，语言重复性高。

一位审稿人表示：

“讨论部分存在以下问题：使用标准化句式模板、缺乏深入分析、文献引用错误，且未能提出超越同类研究的创新性发现。”

另一位审稿人则表示：

“文章整体语言使用较为规范，但带有明显的"模板化"生硬感。部分句子偏离自然感，且过度依赖专业术语堆砌。数据、统计结果及表格呈现方式机械呆板。需要深入分析阐释的部分（如讨论环节）缺乏深度解析。”

总结与讨论

参与本研究的14位评审专家中，仅有3位识别出该稿件由AI模型生成。在从编辑角度评估稿件的专家中，有2位认为其已达到编辑录用标准。从同行评审的角度，有4位判定稿件经小幅修改后即可录用。

随着AI工具在学术领域的广泛应用，期刊编辑和同行评审专家必须提高警惕，审慎甄别稿件撰写过程中是否使用AI工具。显而易见，这一问题必将成为近期学术界激烈辩论的焦点。

为应对AI使用可能引发的争议，期刊可考虑在投稿流程中设置结构化声明机制，通过"选择题+开放式问题"的组合形式，系统评估AI参与的程度与性质。对于未申报的AI生成内容，期刊可对作者采取相应的限制措施。以下两种方案效果更好：一是配备精通AI技术及其科研应用的资深同行评审专家；二是采用专门开发的AI内容检测软件。

文章整理自：Am J Emerg Med. 2025 Jul 30:97:216-219.doi: 10.1016/j.ajem.2025.07.034.