柳叶刀:生成式AI能进行临床推理吗?

2025-03-06 来源:Lancet

计算机像医生一样思考,意味着什么?70多年来,这个问题一直困扰着从事临床推理人工智能(AI)研究的医生。关注这个问题的第一代医生认为人类太直觉了,经常依赖“对病例的一种感觉”。因此,他们推进了基于大规模流行病学、标准化数据收集和概率推理的“计算机化”推理。这些技术在1970s年代被 Tim De Dombal更名为临床决策支持。在日常医疗工作中,临床决策支持系统的作用表现在,例如,对肺栓塞患者进行分类,帮助确定咽喉痛是否需要使用抗生素,为患者及医生提供有关癌症预后的重要信息。尽管这些算法很有帮助,但没有人会认为它们在做推理

在1970s年代,认知心理学开始揭开临床医生直觉的奥秘,将其视为启发式方法,即通过专业知识磨练的心理“捷径”。因此出现了基于规则的专家系统,这些系统可以帮助选择抗生素、解释心电图,甚至做出临床诊断,甚至比人类医生做得更好。

到1980s后期,真正的临床推理AI似乎指日可待,但实际上在很大程度上是停滞不前的,直到2022年底ChatGPT的出现,这是众多大语言模型(LLM)中的第一个,为访问、分析和生成信息提供了强大的交互功能。对ChatGPT的早期研究震惊了临床推理界,其能熟练处理以前只能人类处理的任务,例如解决复杂病例、在急诊室对患者进行分类、预测诊断、在不确定病例中做出复杂的管理决策,甚至直接从患者那里获取病史。

近几十年来,认知心理学领域取得了巨大进步,并为这些推理进展提供了合理的解释。鉴于专业知识存储在脚本(scripts)与图式(schemas)中,并在给定临床问题时激活,现在可以将临床推理理解为信息处理和检索。这种认知架构类似于LLM的标记预测架构。与自上而下并试图对高阶认知过程进行建模的旧推理AI系统不同,LLM是自下而上的,并且由于与专家认知的相似性而提供涌现能力。

当然,这类LLM模型与专家临床推理有很多不同。LLM会产生幻觉,即自信地产生错误或荒谬的输出,因为他们的训练数据中包括大量不准确、种族偏见和性别偏见的信息。它们目前主要利用文本信息,而人类医生,无论要在电子病历上花费多少时间,都不仅仅是通过文本体验世界和与患者建立联系。

OpenAI的o1和DeepSeek的 R1等推理模型的出现,使得问题进一步复杂化,因为它们运行时的思维链处理模式(有效地让语言模型“思考”来解决复杂问题),似乎允许类似于人类的推理。

要回答生成式AI是否能够进行临床推理的问题,仍存在挑战。在该领域测试LLM的一些结果可能只是反映了模型预训练所使用的材料,而且迄今为止还没有大规模的前瞻性临床试验来调查患者预后。

为了研究这些模型,研究人员从认知心理学和医学教育中改编或开发了新的人类推理测量方法,这两个领域对了解临床医生的思维方式最感兴趣。但随着LLM的改进,已基本达到这些基准,这是否意味着LLM可以进行临床推理?医生在处理日常患者诊疗需求时,深知人类临床推理有其缺点,但可能很快就不得不面对另一个令人不安的现实,即LLM在人类推理测试中表现出超人的表现。

参考文献:Lancet. 2025 Mar 1;405(10480):689.

医咖会员全面升级,课程增多,AI工具升级!点击链接:会员-医咖社区 (mediecogroup.com),立享会员优惠!

评论
请先登录后再发表评论
发表评论
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈