ChatGPT vs. Bing，谁回复的医疗信息更准确？

2024-03-12 来源：医咖会

2024年3月4日，《Hypertension Research》发表了一项研究，考察了ChatGPT和Bing回答家庭血压控制问题的完整性、准确性和可重复性，以确定这些工具在提供有关医疗信息方面的可靠性。

原文链接：https://www.nature.com/articles/s41440-024-01624-8

研究方法

研究采用家庭血压监测（HBPM）知识清单进行测试，清单中的10个问题基于英国高血压学会、澳大利亚皇家学院和美国心脏协会（AHA）的建议，涉及广泛的主题，如测量血压前的准备事宜（如休息、衣服类型、避免刺激、使用血压测量袖带、测量时的身体姿势）、测量次数以及记录和读取家用血压计的正确方法等。

研究者首先在GPT-3.5和Bing中提出问题，每个问题提问两次（开启新的聊天界面重复提问），并收集回答。

两个工具对HBPM知识清单的回答，由三位心脏病专家进行独立审查。回答的准确性和完整性采用李克特量表（Likert scale）评估。

回答的准确性分为六个级别：（1）完全不正确；（2）不正确多于正确；（3）正确和错误程度大致相等；（4）正确多于不正确；（5）几乎正确；（6）正确。得分“1”为完全不正确，得分“6”为正确。

回答的完整性分为三个级别：（1）不完整，解决了问题的某些方面，但重要部分缺失或不完整；（2）较为完整，涉及问题的所有方面，但仅提供了最小信息量；（3）全面，涉及问题的所有方面，并提供超出预期的额外信息。得分“1”为不完整，得分“3”为全面。

回答的可重复性由每个心脏病专家根据两次回答的相似性确定。

图. 研究流程

准确性

在所有60项回答的准确性评分中，ChatGPT有58次的准确性评分为6分，2次评分为5分；而Bing有26次评分为6分，27次评分为5分，7次评分为4分。

总体而言，ChatGPT在回答家庭高血压管理问题的平均准确率优于Bing：5.96（SD=0.17） vs. 5.31（0.67）。

图. ChatGPT和Bing回答HBPM清单问题的准确性（上：ChatGPT；下：Bing）

完整性

在所有60项回答的完整性评分中，ChatGPT有4次评分为2分，56次评分为3，即93%的回答得到最高分；而Bing有5次评分为1分，42次评分为2，13次评分为3，即21.67%的回答得到最高分。

总体而言，ChatGPT在回答家庭高血压管理问题的完整性优于Bing：2.93（0.25）vs. 2.13（0.53）。

图. ChatGPT和Bing回答HBPM清单问题的完整性（上：ChatGPT；下：Bing）

可重复性

在30项重复回答的评分中，ChatGPT有28次回答被评为相似，2次被评为不相似；而Bing有25次被评为相似，5次被评为不相似。ChatGPT和Bing回答的可重复性表现如下：

图. ChatGPT和Bing回答HBPM清单问题的可重复性（左：ChatGPT；右：Bing）

研究结果表明，人工智能（AI）工具或聊天机器人（如Bing和ChatGPT）有助于获取有关家庭高血压管理方法的专业医学信息。ChatGPT的回答更加准确和完整，可重复性更好，而Bing的回答相对缺乏可重复性和完整性。这些AI工具是较好的可利用资源，但还有改进的空间。

本研究还存在一些局限性：（1）研究仅评估了血压相关的信息，结论可能不适于其他领域；（2）重复提问可能会导致回答的变化，进而影响结果和评分；（3）没有使用最新版本的GPT-4。

参考文献：Hypertens Res.2024.doi: 10.1038/s41440-024-01624-8.

点击链接：https://www.mediecogroup.com/zhuanlan/courses/，学习70多篇SPSS教程，30多篇R教程，以及更多科研教程！

请先登录后再发表评论

发表评论

确认

取消

APP下载领课程券

扫码下载APP

领基础课程券

公众号

统计咨询

扫一扫添加小咖个人微信，立即咨询统计分析服务！