JAMA子刊:ChatGPT vs. 医生,谁写的研究摘要更受好评?
2024年8月,《JAMA Network Open》(IF=10.5)发表了一项横断面研究,评估ChatGPT生成医学研究摘要的能力。结果显示,经过适当训练的聊天机器人能够生成与人工极为相似的医学研究摘要。
原文链接:https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2821876
研究方法
研究设计和参与者
这是一项横断面研究,于2023年8月至2024年2月在美国东南部一家三级医院进行。研究对象为实习医生、资深医生、以及聊天机器人生成的医学研究摘要。
聊天机器人的训练
研究者使用了两个版本的ChatGPT,即3.5版和4.0版。训练的模型来自研究团队于2012-2022年在外科期刊上发表的10篇摘要。每篇摘要的第一作者不同,通讯作者相同(B.T.H.)。研究团队使用特定的提示词(prompts),让聊天机器人注意摘要之间的相似之处,并确认它们已经保存了该研究小组的写作风格。
训练完成后,聊天机器人被要求根据提供的研究背景、提示语和数据生成摘要。研究者特别指示以一位拥有20多年经验的资深外科医生(类似于B.T.H.)的风格生成摘要。最终,研究者将ChatGPT3.5和4.0生成的摘要,与实习医生撰写的摘要,以及资深医生撰写的摘要进行比较。
对摘要的评估
由丹麦、英国和美国的5位资深外科医生组成评审员,对4个版本的摘要进行盲评。评审员使用10分和20分量表对每版摘要进行独立评分,并对四个版本的摘要进行排名。每一版本均包含10个摘要,一共40个。此外,研究者还要求ChatGPT3.5和4.0对40个摘要进行评分和排名,所有规定与人类评审相同。
研究结果
四个版本摘要的排名
评审员无法区分哪些摘要是由AI生成。每位评审员至少有一次会将AI生成的摘要排在第一位,有一位评审员每次都会将ChatGPT3.5或4.0生成的摘要排在第一位。
合计5位评审员的50次排名中,实习医生的摘要有14次排在第一位,有14次排在最后一位。资深医生的摘要有13次排在第一位,有13次排在最后一位。ChatGPT3.5生成的摘要排在首位的次数最少(7次);排在最后的次数最多(16次);ChatGPT4.0生成的摘要排在首位的次数最多(16次);排在最后的次数最少(7次)。
图. 4版摘要的排名
四个版本摘要的评分
在10分和20分的量表中,无论是实习医生、资深医生还是GPT生成的摘要,评审员给出的分数没有显著差异。中位分数和IQR分别为:
- 10分量表:实习医生,7.0(6.0-8.0);资深医生,7.0(6.0-8.0);ChatGPT3.5,7.0(6.0-8.0);ChatGPT4.0,7.0(6.0-8.0);P=0.61
- 20分量表:实习医生,14.0(12.0-7.0);资深医生,15.0(13.0-17.0);ChatGPT3.5,14.0(12.0-16.0);ChatGPT4.0,14.0(13.0-16.0);P=0.50
图. 4版摘要的评分
人类评审 vs. 聊天机器人评审
ChatGPT3.5给出的摘要评分与医生评审的评分相当,在10分、20分量表和排名上没有差异。然而,ChatGPT4.0给出的评分高于医生评审员和ChatGPT3.5,特别是在20分量表中。
图. 外科医生评审员 vs. 聊天机器人评审员的评分
总结与讨论
这项横断面研究表明,当研究者花时间去训练ChatGPT、为其提供背景信息和分析数据时,ChatGPT可以生成高质量的医学研究摘要。本研究中的聊天机器人还展示了对摘要进行评分的能力,ChatGPT4的严格程度低于ChatGPT3.5。
研究存在的局限性包括:(1)摘要以及评审员的数量小,可能影响结果的普遍性和外推性;(2)研究基于特定领域(外科)的摘要,因此其结果可能不适用于其他医学领域;(3)所用ChatGPT的知识更新截止于2021年9月,无法获取互联网上的最新信息;(4)ChatGPT依赖于训练数据,可能存在偏倚;(5)ChatGPT有字符限制。
参考文献:JAMA Netw Open.2024;7(8):e2425373.
点击链接:临床研究全流程课程 - 科研专栏 - 医咖会 (mediecogroup.com),学习70多篇SPSS教程,30多篇R教程,以及更多科研教程!
