内科学年鉴：做Meta分析时用GPT来做文献筛选，效果如何？

2024-05-30 来源：内科学年鉴

近年来，文献的数量呈指数级增长，而系统综述的文献筛选通常还是由人工进行。随着GPT等大型语言模型的出现，大家也想知道，它们是否有能力来做文献筛选呢？

2024年5月21日，《内科学年鉴》（IF=39.2）发表了一项研究，对此进行了评估。结果显示，在文献筛选方面，GPT-3.5 Turbo模型尚不足以取代人工，但可作为人工筛选的辅助工具，减少工作量。

原文链接：https://www.acpjournals.org/doi/10.7326/M23-3389

研究方法

数据来源

本研究使用了4篇系统综述和1项未发表的研究（S. Yaacoub, unpublished data）。4篇系统综述分别为：Sommer, 2023[2]；Sommer, 2023[3]；Kiesswetter, 2023[4]；Sbidian, 2023[5]。

GPT输出的通用提示框

一位研究者（V.-T.T.）开发了一个通用的提示框，用以指导GPT模型对文献的标题和摘要进行筛选。通用提示框架包含5个提示，分别评估PICOS（人群、干预、对照、结局和研究设计）的5个元素。

图. GPT-3.5 Turbo的通用提示框输出示例

对引用文献的最终决策

GPT为每个文献的PICOS元素提供建议，这些建议被汇总成一个最终建议，以确定哪些文献需要进行进一步的全文筛选，哪些可以排除。研究者制定了两种不同的规则：

平衡规则：需进行进一步全文筛选的标准为，在所有PICOS元素中包含0个或1个“排除”（EXCLUDE）标记的引文。
敏感规则：需进行进一步全文筛选的标准为，在所有PICOS元素中包含0个、1个或2个“排除”（EXCLUDE）标记的引文。

研究结果

本研究使用了5篇系统综述（涉及22,665篇待筛选文献）的数据。经过标题和摘要筛选，纳入1926篇引文（8.5%；范围1.2%-35%）。经过全文筛选，纳入708篇引文（3.1%；范围0.1%-8.7%）。

GPT模型筛选文献的表现

在平衡规则下，敏感性范围为81.1%-96.5%，特异性范围为25.8%-80.4%。

在敏感规则下，敏感性范围为94.6%-99.8%，特异性范围为2.2%-46.6%。

图. GPT-3.5模型对标题和摘要筛选的敏感性和特异性

GPT帮助识别出了人类遗漏的708篇文献中的7个（1%），这些文献本应在全文筛选后被纳入。然而，GPT也错误地推荐了10,279个实际上不应该包括的文献，占总文献数22,665个的45.3%。

GPT模型对人工筛选的影响及漏检率

如果只对GPT没有排除的文献进行人工筛选，那么需要人工检查的文献数量会显著减少：范围从127/6334（2%）到1851/4077（45.4%）。然而，这样做存在一定漏检风险：在标题和摘要检查水平上漏掉0-5%的文献，在全文检查水平上可能会漏掉0-3.8%的文献。

图. 敏感规则下GPT-3.5减少人工筛选的数量及漏检率

总结

在这项研究中，研究者开发了一个通用提示框，以指导GPT-3.5 Turbo模型参与系统综述中的标题和摘要筛选，并考察了其敏感性和特异性。结果显示，GPT-3.5 Turbo模型的当前性能还不足以完全取代人工筛选。

然而，这些模型可以从两个方面改进工作流程：首先，GPT-3.5 Turbo模型可以作为人工筛选的辅助工具，帮助处理在文献筛选过程中出现的不确定性；其次，GPT-3.5 Turbo模型可以减少人工筛选前的文献数量。

参考文献：

1. Ann Intern Med.2024 May 21.doi: 10.7326/M23-3389.

2. Ann Intern Med. 2023;176:92-104.

3. Ann Intern Med. 2023;176:1377-1385.

4. Adv Nutr. 2023;14:438-450.

5. Cochrane Database Syst Rev. 2023;7:CD011535.

--------分割线---------

点击链接：会员-医咖社区 (mediecogroup.com)，成为医咖会员，学习SPSS、预测模型等50门科研课程！

请先登录后再发表评论

发表评论

木

学习了

2024-08-23 23:40:19 回复

确认

取消

APP下载领课程券

扫码下载APP

领基础课程券

公众号

统计咨询

扫一扫添加小咖个人微信，立即咨询统计分析服务！

会员服务

SCI-AI工具

积分商城

意见反馈