人工智能可能快速发现造假文章
近期,预印本服务器 bioRxiv上报道了一项利用人工智能对医学文献进行的可视化分析,映射了近2100万篇文献检的关系,其生成的图可以反映很多趋势。

https://www.biorxiv.org/content/10.1101/2023.04.10.536208v2

研究团队从PubMed下载了近2100万篇英文文章的摘要。然后使用名为 PubMedBERT 的人工智能大型语言模型,根据相似性对摘要进行排序。该模型在每个摘要中检索科学术语,并根据上下文解释它们的含义,将类似的文献分组为所谓的“neighborhoods(邻居)”。
该可视化图对于打击造假研究也可能有用。在一项分析中,研究团队重点关注了 PubMed 数据库中近 12000 篇被标记为撤稿的论文。这些论文散布在整个图中,但也有许多聚集在一起,形成密集的“岛屿”。其中一个岛屿包含多篇被撤稿论文,集中在microRNA 的抗癌功能上,这是论文工厂生产的造假论文的热门话题。

研究者认为,仔细检查这些密集区域可能有助于识别其他可疑文献。当研究者检查了该“岛屿”的 另外25 篇未被撤稿论文时,就发现了明显的迹象表明也可能是由论文工厂生产的,许多论文的标题都遵循完全相同的模板。