JAMA子刊:ChatGPT回答医学考试题的正确率有多高?

2024-06-26 来源:医咖会

ChatGPT之类的大型语言模型(LLMs)在医学中的应用非常广泛,从协助临床医生完成文书任务或临床决策,到为患者提供医疗咨询等。与专业医护人员一样,我们可以通过标准化测试来评估LLM的医学知识

2024年6月18日,《JAMA Network Open》发表了一项横断面研究,评估了LLMs回答肿瘤专业考试题的准确性

图片

原文链接:https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2820094

研究方法

研究设计

这项横断面研究在2023年5月28日-10月11日进行,由于不涉及人类参与者,因此无需获得伦理委员会的批准,也无需知情同意。

试题来源

(1)ASCO Connection网站上有一个可公开访问的题库(ASCO 肿瘤学自我评估)。题库有52道题,题型为选择题,有唯一正确答案。官网提供了正确答案,且有对答案的解释和参考资料。

(2)ESMO在2021年和2022年发布的考试试题,专为参加ESMO考试的培训中肿瘤科医生设计。本研究舍弃了其中的图像问题,剩下75个问题,均为选择题,有唯一正确答案。ESMO提供了正确答案,解释和参考资料则另外由两位肿瘤科医生编写。

(3)研究团队原创了一系列肿瘤学选择题,三位肿瘤专家编写了20道选择题,每个答案也提供了解释和参考资料。

本研究考察的LLMs

研究考察了8个不同的LLMs,包括2个私有LLM(私有LLM1 :ChatGPT-3.5;私有LLM2:ChatGPT-4;均来自OpenAI)和6个开源LLM(在Chatbot Arena上排名靠前)。

注:为更好评估不同LLMs在实际应用场景中的表现,Chatbot Arena应运而生,旨在提供一个开放、众包的平台,收集人类反馈,以评估和比较不同LLMs的性能。

主要结局和措施

主要结局是正确答案的百分比。由肿瘤专家对最佳LLM提供的答案解释进行准确性评估,对错误类型进行分类,并估计潜在临床伤害的可能性和程度。

研究结果

研究共包含147道试题,包括ASCO的52道试题、ESMO的75道试题和研究团队的20道原创试题,涵盖广泛的主题,最常见的类别是血液肿瘤。147个考题中,有41道题(27.9%)需要了解2018年之后的知识。LLM对所有问题的答案都提供了自己的解释。

表. 147道试题的特征

图片

回答正确率

ChatGPT-3.5在147个考题中回答正确89个60.5%;95%CI 39.5%-67.8%)。

ChatGPT-4在147个考题中回答正确125个85.0%;95%CI 78.2%-90.4%),在所有LLMs中的正确率最高。首次回答错误的22个试题,在第二次回答时修正了12个试题的答案。

图片

图. ChatGPT-3.5(私有LLM 1)和ChatGPT-4(私有LLM 2)的正确率

开源LLM中,表现最好的是Mixtral-8x7B-v0.1,回答正确了87个考题59.2%;95%CI 50.0%-66.4%),但仍不如ChatGPT-4。BioMistral-7B DARE 是针对生物医学领域的LLM,回答正确了50个考题(33.6%;95%CI 26.0%-41.7%)。

ChatGPT-4的答案解释是否准确

肿瘤专家对ChatGPT-4提供的答案解释进行了定性评估,显示147个考题中有123个(83.7%,76.7%-89.3%)的答案解释为完全正确。在22个选择错误的试题中,有13个为小错误,有9个为重大错误。

图片

图. ChatGPT-4提供的答案解释准确性

知识新旧程度与ChatGPT-4的回答正确率

随着知识更新的年份接近当前时间,ChatGPT-4的正确率有所下降

  • 知识更新在2018年之前,106个问题中有12个(11.3%)不正确;
  • 知识在2018年和2019年更新,20个问题中有3个(15.0%)不正确;
  • 知识在2019年之后更新,21个问题中有7个(33.3%)不正确。

错误的潜在危害

ChatGPT-4回答错误的22个问题,如果在临床中被采用,有14个(63.6%)可能造成中等伤害,有4个(18.2%)可能造成严重伤害

总结

本研究发现,LLMs回答肿瘤学考试题表现出色,ChatGPT-4正确回答了85%的试题,并提供了准确的书面解释来支持答案。然而,错误答案也可能引发安全问题。

该研究有几个局限性:(1)对错误的严重程度、潜在临床伤害的可能性和程度的分类是主观的;(2)由于ChatGPT-3.5和ChatGPT-4的训练数据是私有的,无法排除这些试题可能已被包含在模型的训练过程中;(3)因为ChatGPT-4的错误率较低,因此对错误答案的分析基于的样本量较小;(4)LLMs的性能随时间不断变化,研究时用到的高性能LLMs无法代表未来的模型。

参考文献:JAMA Netw Open. 2024 Jun 3;7(6):e2417641.

点击链接:临床研究全流程课程 - 科研专栏 - 医咖会 (mediecogroup.com),学习70多篇SPSS教程,30多篇R教程,以及更多科研教程!

评论
请先登录后再发表评论
发表评论
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈