让GPT写了一篇完整的SCI文章,79%的审稿人没发现是AI写的
【2025年8月8日更新:值医咖会9周年之际,赶快去医咖会APP限时领取基础会员权益,含28张基础课程券,各种科研课程随心看】
2025年7月,《American Journal of Emergency Medicine》发表了一篇文章,旨在调查专业审稿人是否能识别出GPT所生成的论文。
研究者要求ChatGPT-4o撰写了一篇医学SCI论文,发送给14位审稿人(之前担任过期刊编辑或审稿人),结果显示,11位审稿人(78.6%)没有发现稿件是AI生成的。
研究者让ChatGPT-4o生成的论文截图,全文可看:https://www.sciencedirect.com/science/article/pii/S0735675725004954
研究方法:让GPT撰写论文并发给审稿人
研究因未使用真实患者数据,故无需伦理委员会审批。研究采用了ChatGPT最新模型GPT-4o。
摘要按传统学术格式(引言、材料与方法、结果、结论)构建,字数限制约250词。最终的版本见上图。
审稿人评审论文
在研究的第二阶段,研究者将ChatGPT-4o撰写的稿件发送给14位评审人。这些评审人均曾担任过SCI-E索引期刊的审稿人或编辑,且根据Web of Science数据其H指数均≥5。
研究者事先告知评审人其评估的稿件有可能是AI生成,并邀请其自愿参与研究。所有评审人在参与前均签署了知情同意书。稿件通过Google Docs平台共享。在此过程中,未收集任何能识别评审人个人身份的信息。
评审人被要求以SCI-E期刊编辑或同行评审的标准对稿件进行评估。完成评估后,评审人需确认是否能识别出稿件为AI生成。对于作出肯定答复的评审人,研究者进一步邀请其说明判断依据。所有反馈均被完整记录并进行统计分析。
主要结果
本研究显示,由GPT-4o生成的学术稿件在接受14位评审人(均具有SCI-E索引期刊编辑或同行评审经验)的双重评估时呈现以下结果:
从编辑初审角度:
- 42.9%(6位)建议直接拒稿
- 42.9%(6位)认为可送交同行评审
- 14.3%(2位)认为达到编辑录用标准
从审稿人角度:
- 42.9%(6位)建议拒稿
- 28.6%(4位)要求重大修改
- 28.6%(4位)认同经小幅修改后可录用
78.6%(11位)评审人未能识别该稿件由AI生成,21.4%(3位)评审人判定其为AI生成文本。识别出的评审人指出论文存在以下AI特征:标准化的句式结构、模板化的表述、讨论内容流于表面,语言重复性高。
一位审稿人表示:
“讨论部分存在以下问题:使用标准化句式模板、缺乏深入分析、文献引用错误,且未能提出超越同类研究的创新性发现。”
另一位审稿人则表示:
“文章整体语言使用较为规范,但带有明显的"模板化"生硬感。部分句子偏离自然感,且过度依赖专业术语堆砌。数据、统计结果及表格呈现方式机械呆板。需要深入分析阐释的部分(如讨论环节)缺乏深度解析。”
总结与讨论
参与本研究的14位评审专家中,仅有3位识别出该稿件由AI模型生成。在从编辑角度评估稿件的专家中,有2位认为其已达到编辑录用标准。从同行评审的角度,有4位判定稿件经小幅修改后即可录用。
随着AI工具在学术领域的广泛应用,期刊编辑和同行评审专家必须提高警惕,审慎甄别稿件撰写过程中是否使用AI工具。显而易见,这一问题必将成为近期学术界激烈辩论的焦点。
为应对AI使用可能引发的争议,期刊可考虑在投稿流程中设置结构化声明机制,通过"选择题+开放式问题"的组合形式,系统评估AI参与的程度与性质。对于未申报的AI生成内容,期刊可对作者采取相应的限制措施。以下两种方案效果更好:一是配备精通AI技术及其科研应用的资深同行评审专家;二是采用专门开发的AI内容检测软件。
文章整理自:Am J Emerg Med. 2025 Jul 30:97:216-219.doi: 10.1016/j.ajem.2025.07.034.
