内科学年鉴:做Meta分析时用GPT来做文献筛选,效果如何?
近年来,文献的数量呈指数级增长,而系统综述的文献筛选通常还是由人工进行。随着GPT等大型语言模型的出现,大家也想知道,它们是否有能力来做文献筛选呢?
2024年5月21日,《内科学年鉴》(IF=39.2)发表了一项研究,对此进行了评估。结果显示,在文献筛选方面,GPT-3.5 Turbo模型尚不足以取代人工,但可作为人工筛选的辅助工具,减少工作量。

原文链接:https://www.acpjournals.org/doi/10.7326/M23-3389
研究方法
数据来源
本研究使用了4篇系统综述和1项未发表的研究(S. Yaacoub, unpublished data)。4篇系统综述分别为:Sommer, 2023[2];Sommer, 2023[3];Kiesswetter, 2023[4];Sbidian, 2023[5]。
GPT输出的通用提示框
一位研究者(V.-T.T.)开发了一个通用的提示框,用以指导GPT模型对文献的标题和摘要进行筛选。通用提示框架包含5个提示,分别评估PICOS(人群、干预、对照、结局和研究设计)的5个元素。
图. GPT-3.5 Turbo的通用提示框输出示例
对引用文献的最终决策
GPT为每个文献的PICOS元素提供建议,这些建议被汇总成一个最终建议,以确定哪些文献需要进行进一步的全文筛选,哪些可以排除。研究者制定了两种不同的规则:
- 平衡规则:需进行进一步全文筛选的标准为,在所有PICOS元素中包含0个或1个“排除”(EXCLUDE)标记的引文。
- 敏感规则:需进行进一步全文筛选的标准为,在所有PICOS元素中包含0个、1个或2个“排除”(EXCLUDE)标记的引文。
研究结果
本研究使用了5篇系统综述(涉及22,665篇待筛选文献)的数据。经过标题和摘要筛选,纳入1926篇引文(8.5%;范围1.2%-35%)。经过全文筛选,纳入708篇引文(3.1%;范围0.1%-8.7%)。
GPT模型筛选文献的表现
在平衡规则下,敏感性范围为81.1%-96.5%,特异性范围为25.8%-80.4%。
在敏感规则下,敏感性范围为94.6%-99.8%,特异性范围为2.2%-46.6%。
图. GPT-3.5模型对标题和摘要筛选的敏感性和特异性
GPT帮助识别出了人类遗漏的708篇文献中的7个(1%),这些文献本应在全文筛选后被纳入。然而,GPT也错误地推荐了10,279个实际上不应该包括的文献,占总文献数22,665个的45.3%。
GPT模型对人工筛选的影响及漏检率
如果只对GPT没有排除的文献进行人工筛选,那么需要人工检查的文献数量会显著减少:范围从127/6334(2%)到1851/4077(45.4%)。然而,这样做存在一定漏检风险:在标题和摘要检查水平上漏掉0-5%的文献,在全文检查水平上可能会漏掉0-3.8%的文献。

图. 敏感规则下GPT-3.5减少人工筛选的数量及漏检率
总结
在这项研究中,研究者开发了一个通用提示框,以指导GPT-3.5 Turbo模型参与系统综述中的标题和摘要筛选,并考察了其敏感性和特异性。结果显示,GPT-3.5 Turbo模型的当前性能还不足以完全取代人工筛选。
然而,这些模型可以从两个方面改进工作流程:首先,GPT-3.5 Turbo模型可以作为人工筛选的辅助工具,帮助处理在文献筛选过程中出现的不确定性;其次,GPT-3.5 Turbo模型可以减少人工筛选前的文献数量。
参考文献:
1. Ann Intern Med.2024 May 21.doi: 10.7326/M23-3389.
2. Ann Intern Med. 2023;176:92-104.
3. Ann Intern Med. 2023;176:1377-1385.
4. Adv Nutr. 2023;14:438-450.
5. Cochrane Database Syst Rev. 2023;7:CD011535.
--------分割线---------
点击链接:会员-医咖社区 (mediecogroup.com),成为医咖会员,学习SPSS、预测模型等50门科研课程!
