发现论文中有问题的图片,人工智能比人工更厉害

科学图像侦探Sholto David是一名生物学家,致力于发现研究论文中有问题的图片,他花了几个月的时间仔细研究一本期刊的数百篇论文,寻找那些有重复图像的论文,然后他通过人工智能(AI)工具查看了同样的论文。

结果显示,该软件的工作速度是人工的两到三倍,几乎找到了他发现的所有 63 篇可疑论文,还另外发现了他未察觉到的41 篇可疑论文。David近期在一篇预印本论文中描述了这项工作,这是最早发表的人类对比机器寻找可以论文图像的文章之一。

https://dr2pp.oss.ns-svc.cn/Ma/Ma0O/Ma0OhoGvg5TXmUgnSUzv.jpg

链接:https://www.biorxiv.org/content/10.1101/2023.09.03.556099v2


近年来,学术出版商也在苦恼论文中的图像问题。2016 年的一项研究中,旧金山的著名图像取证专家Elisabeth Bik和同事报告说,她目视扫描的 40 种生物医学科学期刊中,近 4% 的论文包含不恰当的重复图像[mBio. 2016;7(3):e00809-16.]。

并非所有图像处理都是出于恶意。作者可能出于审美原因或为了使图形更容易理解而无意中修改了图像。但无论作者的动机如何,期刊和其他机构都希望捕捉经过越界修改的图像。现在他们开始向人工智能寻求帮助。

AI工具:欺诈克星

大约 200 所大学、出版商和科学协会已经开始依赖 Imagetwin,这也是前述David用于其研究的AI工具。该软件将论文中的图像与其他出版物超过 2500 万张图像进行比较,据 Imagetwin 的开发人员称,这是图像完整性领域最大的数据库。

Bik一直定期使用 Imagetwin 来补充自己的技能,并称其为她的“标准工具”,她也强调 AI 有弱点也有优点 - 例如,它可能会错过低对比度的重复图像。

一些出版商已转向其他人工智能工具。美国癌症研究协会出版的期刊使用人工智能工具 Proofig 筛选论文。出版商Frontiers 开发了自己的软件来检查其系列期刊的论文。《自然》杂志的出版商施普林格公司的发言人表示,公司正在“继续探索和开发图像检查工具”。

论文中的图像问题不容忽视

在其研究中,David 筛选了 2014 年至 2023 年《Toxicology Reports》发表的 700 多篇带有图像的论文,他选择该期刊的部分原因是其包含大量图片,部分原因是该期刊的出版商 Elsevier 在 2021 年曾对特刊表达了担忧。

在目视检查论文后,David尝试了人工智能,发现它的工作速度“比我长时间仔细地盯着图像快得多”,虽然它也错过了自己标记的四篇可疑论文。总而言之,整个分析的论文中,大约 16%存在图像重复的问题

这比 Bik之前估算的 4% 高得多,但Bik说 David 的数字并不令人惊讶。在她的分析中,个别期刊的论文重复率在 0.3% 到 12% 之间,而影响力较高的期刊的重复论文往往较少。

德国FEBS Press 的图像完整性分析师 Jana Christopher 同意,期刊中 16% 的图像可能包含重复内容,这是“完全合理的”。她可以免费访问 Imagetwin 并将其与其他软件一起使用。Christopher在论文发表前对其进行检查时,标记了大约三分之一的论文需要进一步调查。

使用AI工具成为论文审核流程的一部分

Christopher 表示,最终目标是将 Imagetwin 等人工智能工具纳入论文评审过程中,就像许多出版商通常使用软件扫描文本是否抄袭一样。但人工智能本身还不够。“你必须利用自己的专业知识来质疑这些事情,因为Imagetwin给出的标记不等同于就是欺诈。

还有研究者表示,大学正在使用 Imagetwin 来审查其教职员工向期刊提交的论文。


文章参考来源:Nature新闻

链接:https://www.nature.com/articles/d41586-023-02920-y#ref-CR2