越来越多期刊采用AI来识别稿件中的重复图片
2022-01-19 来源:医咖会

自2021年1月以来,美国癌症研究协会(AACR)一直在使用人工智能(AI)对其在同行评审后暂时考虑接收的所有稿件进行检查。其目的是能自动提醒编辑注意到重复的图片

当软件标出图片有问题时,仍然需要专业编辑来决定该怎么处理。例如,如果数据集在文章中出现了两次,而且这种重复非常有必要,那么出现重复的图片可能就非常合理了。有些重复可能是简单的复制和粘贴错误,而不是欺诈。所有这些只能通过编辑和作者之间的讨论来解决。

现在AI已经变得非常有用,在未来几年里,自动图片检查助手的浪潮可能会席卷学术出版业,就像十年前使用软件检查手稿是否有抄袭行为一样,或成为常规。出版业团体表示,他们正在探索如何在不同的期刊中比较手稿中的图片问题

其他专家对这一趋势表示欢迎,但他们提醒说,目前还没有对各种软件进行公开比较,自动检查也可能会出现太多误报或遗漏某些类型的欺诈行为。从长远来看,对软件筛查的依赖,也可能促使造假者利用AI来骗过软件,就像有些人通过调整文字来逃避抄袭筛查一样。

许多出版商开始使用AI来进行检测

2016年,由微生物学家Elisabeth Bik主持的一项对约2万篇生物医学论文进行的分析[1]表明,多达4%的论文可能存在图片重复问题。然而,通常每年只有约1%的论文得到更正,而被撤回的则更少。

 

链接:

https://www.nature.com/articles/nature.2016.19802

去年,出版商们联合起来成立了一个工作组,为筛选论文中图片问题的软件制定标准;该工作组今年发布了关于编辑应如何处理被篡改图片的指南,但还没有产生关于软件的指南。

美国临床调查学会于7月开始在《Journal of Clinical Investigation》(JCI)和《JCI Insight》的稿件中使用了一个名为Proofig的软件。

这个软件通过从论文中提取图片并进行成对的比较,以找到共同的特征,包括是否存在部分重复。一篇典型的论文在一两分钟内就能检查完毕;该软件还能纠正一些棘手的问题,如当高分辨率原始数据的图片被压缩成较小的文件时可能出现的压缩伪影。AI有一定优势,不仅不会疲劳,运行速度更快,而且也不会受到大小、位置、方向、重叠、部分重复等的影响。

出版商Frontiers也开发了自己的图片检查软件,与一个名为AIRA(AI审查助理)同步进行自动检查。一位发言人说,自2020年8月以来,一个团队一直在使用AIRA对所有提交的稿件进行图片检查。但它所标出的大多数论文实际上并没有问题,只有大约10%的论文需要团队进行进一步处理。

包括Bik和Rossner在内的专家表示,他们自己还没有尝试过AIRA或Proofig,很难评估那些没有经过公开比较的软件产品。Rossner补充说,除了重复之外,检测图片操纵问题也很重要,比如删除了或裁剪掉图片的部分内容。他说:"软件可能是人工筛查的有益补充,但它可能无法完全替代人工检查"。

一些出版商还对此持谨慎态度

尚未采用AI图片筛查的出版商提到了成本和可靠性的问题。PLOS的一位发言人说,他们正在密切关注那些能够 "可靠识别常见图片完整性问题并且可以大规模应用"的工具。Elsevier仍在测试这些AI软件。

2020年4月,Wiley为临时接收的稿件引入了图片筛查服务,现在有120多家期刊在使用,但发言人说,目前仍是在软件辅助下的人工筛查。Springer Nature正在评估一些外部工具,同时整理数据进行机器学习,该软件将"结合AI和人工来识别有问题的图片"。

EMBO出版社仍然主要使用人工筛查,因为领导层还不相信商业产品的成本效益比。他们担心,欺诈者可能会学习软件的工作方式,并利用AI制造人和软件都无法检测的假图片。

虽然还没有人证明这种图片已经出现在了论文中,但去年在bioRxiv上发布的一篇预印本[2]研究表明,有可能制作出与真实数据无法区分的假生物图片。研究人员正在努力解决这个问题,计算机科学家Edward Delp领导的团队正在关注伪造生物图片的做法。

跨期刊的图片检查

目前,AI图片检查一般是在单篇稿件中进行,而不是跨论文进行。商业和学术软件开发商表示,这在技术上是可行的。计算机科学家Daniel Acuña去年在数以千计的COVID-19预印本中运行了他的软件,以找到重复的内容

Crossref是一个由15000多个组织组成的美国非营利性合作组织,负责组织跨论文的抄袭检查等工作。Crossref的产品总监说,目前正在进行一项调查,询问其成员对篡改图片的关注,正在使用什么软件。

在2021年12月,学术出版商行业组织STM的子公司,宣布它正在开发一个 "基于云的环境",以帮助出版商合作"检查文章的研究完整性问题",同时还可以保证一定的私密性。

参考文献:

1. mBio. 2016 Jun 7;7(3):e00809-16.

2. https://doi.org/10.1101/2020.11.24.395319 (2021)

本文整理自:

https://www.nature.com/articles/d41586-021-03807-6

更多阅读:

目前科研太重视发表,却忽略了对研究质量的把控

这样也可以?这个实验室通过玩游戏来确定谁是论文一作

如何写一份好的博士后申请?来看一位PI的建议



扫码关注“医咖会”公众号,及时获取最新重磅研究

有问题
找小咖
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
数据库搭建
想提升科研效率和数据质量?扫码添加小E,立即咨询数据采集与管理相关产品和服务!查看详细>>
意见反馈