ChatGPT也有认知障碍?来看BMJ发表的一项横断面研究

2025-01-03 来源:BMJ

每年12月份,BMJ都会出版一个圣诞特辑,介绍一些有趣好玩的研究。例如,2021年的特刊BMJ:看完24部漫威电影,对5位超级英雄来个健康预测,2022年的特刊BMJ的有趣研究:哪科医生打字速度最快?

在今年的圣诞特辑文章中,小咖挑选了一篇文章,是一项横断面研究,通过蒙特利尔认知评估量表(MoCA)和其他测试来评估5种常见大语言模型(ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1、Gemini 1.5)的认知能力。

结果发现,除了ChatGPT 4o外,几乎所有经过MoCA测试的大语言模型都显示出轻度认知障碍的迹象。此外,与人类一样,年龄是认知能力下降的关键决定因素,“旧版”聊天机器人往往在MoCA测试中表现更差。

链接:https://www.bmj.com/content/387/bmj-2024-081948

01.研究设计

研究对象

研究者对5种公开可用的大语言模型进行了MoCA测试,包括OpenAI的ChatGPT 4和 4o(https://chatgpt.com)、Anthropic 的 Claude 3.5(“Sonnet”) (https://claude.ai),以及谷歌的“Gemini 1和1.5”(https://gemini.google.com)。

认知功能评估

使用MoCA测试(版本8.1;官网:https://mocacognition.com/)和一些额外的测试对大语言模型的认知能力进行评估。

MoCA测试被广泛用于检测老年人认知障碍和痴呆的早期症状,由一些简短的任务和问题组成,评估各种认知领域,包括注意力、记忆、语言、视觉空间技能和执行功能。满分30分,≥26分通常被认为正常

MoCA测试给大语言模型的指令与给人类患者的指令相同,区别在于大语言模型通过文本进行提问,而人类患者通过语音进行提问。评分遵循官方指南,由一名普通神经科医生和一名认知神经病学专家进行评估。

信息处理通过Stroop测试进行,该测试使用颜色名称和字体颜色的组合(一致/不一致)来测试反应时间。

02.主要结果

所有大语言模型都完成了完整的MoCA测试。ChatGPT 4o得分最高(26分),其次是ChatGPT4和Claude(25分)。Gemini 1.0得分最低,为16分,表明其认知障碍状态比同类模型更严重

图片

图. 5种大语言模型MoCA得分

图片

图. 5种大语言模型认知能力测试表现

视觉空间/执行能力

所有大型语言模型在视觉空间/执行能力测试中均表现不佳,未能完成内克尔立方体(Necker cube)绘制任务。只有ChatGPT 4o在使用“ascii art”(一种使用ascii字符呈现图形的技术)的情况下成功完成了立方体绘制任务。

图. 内克尔立方体绘制任务

F:要求绘制的内克尔立方体;G:人类参与者绘制的结果;H:Claude输出的结果;I:ChatGPT 4输出的结果;J:ChatGPT 4o输出的结果

在钟表绘制任务中,所有大语言模型被要求画一个时钟,输入所有数字并将时间设置为10点11分。结果显示,所有大语言模型均未成功完成。Gemini和ChatGPT 4犯了与痴呆症患者同样的常见错误。

图片

图. 钟表绘制任务

A:正常人类参与者绘制的结果;B:晚期阿尔茨海默病患者绘制的结果;C:Gemini 1输出的结果;D:Gemini 1.5输出的结果;E:Gemini 1.5输出的结果(使用ascii art);F:Claude输出的结果(使用ascii art);G:ChatGPT 4输出的结果;H:ChatGPT 4o输出的结果

信息处理能力

在Stroop测试中,当文字和字体颜色一致时,所有大语言模型都能成功完成;当文字和字体颜色不一致时,只有ChatGPT 4o成功完成了。其他大型语言模型似乎被这个任务难住了,在某些情况下甚至指出了既不是文字颜色也不是字体颜色的颜色。

03.总结

这项研究评估了5种大语言模型(ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1、Gemini 1.5)的认知能力,并使用MoCA来识别认知障碍的迹象。研究发现,没有一个聊天机器人能获得满分,大多数得分低于26分,表明存在轻度认知障碍和可能的早期痴呆症迹象。尽管大语言模型在多个认知领域表现出显著优势,但在视觉空间和执行能力方面表现出显著的缺陷,类似于人类的轻度认知障碍。

“较旧”的大语言模型版本得分低于“较新”的版本,这也与人类参与者的情况相似。Gemini 1.0和1.5之间的差异最明显,相差6分。

参考文献:BMJ. 2024 Dec 19:387:e081948.

 ------分割线------

医咖会APP正式上线啦!现在下载医咖会APP,可以获取惊喜好礼!

1、在医咖会APP完成注册登录,即可获得2张基础课程券

2、完成职业认证的用户,在医咖会APP用1积分即可兑换2025年医咖会科研台历(数量有限,先到先得!)

下载医咖会APP方式:

1、扫描下方二维码下载APP

2、在应用商店搜索【医咖会】进行下载

3、点击链接:医咖社区 - 引导下载 (mediecogroup.com)进行下载

评论
请先登录后再发表评论
发表评论
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈