ChatGPT也有认知障碍?来看BMJ发表的一项横断面研究
每年12月份,BMJ都会出版一个圣诞特辑,介绍一些有趣好玩的研究。例如,2021年的特刊BMJ:看完24部漫威电影,对5位超级英雄来个健康预测,2022年的特刊BMJ的有趣研究:哪科医生打字速度最快?
在今年的圣诞特辑文章中,小咖挑选了一篇文章,是一项横断面研究,通过蒙特利尔认知评估量表(MoCA)和其他测试来评估5种常见大语言模型(ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1、Gemini 1.5)的认知能力。
结果发现,除了ChatGPT 4o外,几乎所有经过MoCA测试的大语言模型都显示出轻度认知障碍的迹象。此外,与人类一样,年龄是认知能力下降的关键决定因素,“旧版”聊天机器人往往在MoCA测试中表现更差。
链接:https://www.bmj.com/content/387/bmj-2024-081948
01.研究设计
研究对象
研究者对5种公开可用的大语言模型进行了MoCA测试,包括OpenAI的ChatGPT 4和 4o(https://chatgpt.com)、Anthropic 的 Claude 3.5(“Sonnet”) (https://claude.ai),以及谷歌的“Gemini 1和1.5”(https://gemini.google.com)。
认知功能评估
使用MoCA测试(版本8.1;官网:https://mocacognition.com/)和一些额外的测试对大语言模型的认知能力进行评估。
MoCA测试被广泛用于检测老年人认知障碍和痴呆的早期症状,由一些简短的任务和问题组成,评估各种认知领域,包括注意力、记忆、语言、视觉空间技能和执行功能。满分30分,≥26分通常被认为正常。
MoCA测试给大语言模型的指令与给人类患者的指令相同,区别在于大语言模型通过文本进行提问,而人类患者通过语音进行提问。评分遵循官方指南,由一名普通神经科医生和一名认知神经病学专家进行评估。
信息处理通过Stroop测试进行,该测试使用颜色名称和字体颜色的组合(一致/不一致)来测试反应时间。
02.主要结果
所有大语言模型都完成了完整的MoCA测试。ChatGPT 4o得分最高(26分),其次是ChatGPT4和Claude(25分)。Gemini 1.0得分最低,为16分,表明其认知障碍状态比同类模型更严重。
图. 5种大语言模型MoCA得分
图. 5种大语言模型认知能力测试表现
视觉空间/执行能力
所有大型语言模型在视觉空间/执行能力测试中均表现不佳,未能完成内克尔立方体(Necker cube)绘制任务。只有ChatGPT 4o在使用“ascii art”(一种使用ascii字符呈现图形的技术)的情况下成功完成了立方体绘制任务。
图. 内克尔立方体绘制任务
F:要求绘制的内克尔立方体;G:人类参与者绘制的结果;H:Claude输出的结果;I:ChatGPT 4输出的结果;J:ChatGPT 4o输出的结果
在钟表绘制任务中,所有大语言模型被要求画一个时钟,输入所有数字并将时间设置为10点11分。结果显示,所有大语言模型均未成功完成。Gemini和ChatGPT 4犯了与痴呆症患者同样的常见错误。
图. 钟表绘制任务
A:正常人类参与者绘制的结果;B:晚期阿尔茨海默病患者绘制的结果;C:Gemini 1输出的结果;D:Gemini 1.5输出的结果;E:Gemini 1.5输出的结果(使用ascii art);F:Claude输出的结果(使用ascii art);G:ChatGPT 4输出的结果;H:ChatGPT 4o输出的结果
信息处理能力
在Stroop测试中,当文字和字体颜色一致时,所有大语言模型都能成功完成;当文字和字体颜色不一致时,只有ChatGPT 4o成功完成了。其他大型语言模型似乎被这个任务难住了,在某些情况下甚至指出了既不是文字颜色也不是字体颜色的颜色。
03.总结
这项研究评估了5种大语言模型(ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1、Gemini 1.5)的认知能力,并使用MoCA来识别认知障碍的迹象。研究发现,没有一个聊天机器人能获得满分,大多数得分低于26分,表明存在轻度认知障碍和可能的早期痴呆症迹象。尽管大语言模型在多个认知领域表现出显著优势,但在视觉空间和执行能力方面表现出显著的缺陷,类似于人类的轻度认知障碍。
“较旧”的大语言模型版本得分低于“较新”的版本,这也与人类参与者的情况相似。Gemini 1.0和1.5之间的差异最明显,相差6分。
参考文献:BMJ. 2024 Dec 19:387:e081948.
------分割线------
医咖会APP正式上线啦!现在下载医咖会APP,可以获取惊喜好礼!
1、在医咖会APP完成注册登录,即可获得2张基础课程券!
2、完成职业认证的用户,在医咖会APP用1积分即可兑换2025年医咖会科研台历(数量有限,先到先得!)
下载医咖会APP方式:
1、扫描下方二维码下载APP
2、在应用商店搜索【医咖会】进行下载
3、点击链接:医咖社区 - 引导下载 (mediecogroup.com)进行下载
