论文撰写使用AI工具构成抄袭吗?界限在哪里?

2024-08-14 来源:医咖会

本文整理自Nature上的一篇文章,原文题目为“AI is complicating plagiarism. How should scientists respond?”

今年的学术界抄袭事件频发,1月份哈佛校长因遭受抄袭指控而辞职,2月份又有同行评审意见被曝光存在抄袭行为。

相关阅读:同行评审意见,也存在抄袭行为?

在学术写作中,还有一个更大的问题,由生成式人工智能 (AI) 工具的快速普及而引发,即使用AI工具是否构成抄袭?在哪些情况下允许使用AI工具?

ChatGPT等生成式AI工具基于大型语言模型 (LLM) ,可以帮助节省时间、提升文字表达能力并减少语言障碍。许多研究者认为,在某些情况下,这些工具应被允许使用,但需要充分披露

然而,此类工具的使用,使得本就充满争议的、如何合法使用他人作品的讨论变得更加复杂。LLMs使用大量已发表文章进行训练,并生成文本,因此,使用此类工具可能会导致类似抄袭的行为发生。例如,研究者使用AI生成的内容充当自己的成果,或使用AI生成与某些论文内容非常接近的文本,却不注明参考文献。这些工具还可用来掩盖故意抄袭的内容,使用此类工具的行为很难被发现。

2023 年,在一项针对 1600 名研究者的调查中,68% 的受访者表示,AI将使抄袭更容易,也更难被发现。德国柏林应用科技大学一位检测抄袭行为的专家 Debora Weber-Wulff 说:“每个人都担心其他人使用这些工具,又担心自己错过使用的时机”。

相关阅读:Nature深度调研:1600名研究者如何看待和使用ChatGPT等AI工具

当AI遇上抄袭

美国研究诚信办公室将抄袭定义为“未经授权而搬用他人的想法、方案、结果或文字的行为”。2015 年的一项研究显示,1.7%的研究者承认有过抄袭行为,30% 的研究者知道有人抄袭[1]。

LLM的出现,可能会使情况变得更糟。如果有人使用LLM先对他人的文本进行解释,那么故意抄袭的行为就很容易被掩盖。加拿大计算机学家Muhammad Abdul-Mageed表示,人们通过提示语可以让AI工具以复杂的方式进行修改,比如以学术期刊的风格。

一个核心问题是,使用完全由AI编写的、未注明来源的内容是否算作抄袭?许多研究者认为没有定论。

例如,欧洲学术诚信网(European Network for Academic Integrity)将禁止使用AI或未申报使用AI所进行的写作定义为“未经授权的内容生成”,而不是抄袭[2]。Weber-Wulff说:“对我而言,抄袭是指来源于一个具体的人的内容。尽管在一些情况下,AI生成的文本与人类书写的内容几乎完全相同,但这通常不足以被视为抄袭。“

而另一些人认为,生成式AI工具侵犯了版权。抄袭和侵犯版权都是对他人作品的不当使用,抄袭违反了学术道德,而侵犯版权则可能违法。密歇根大学一位计算机科学家说:“这些AI系统是建立在数百万、甚至数亿人的工作之上的。”

一些媒体公司认为AI侵犯了自己的版权,并提出了抗议。2023 年 12 月,《纽约时报》对科技巨头微软和 OpenAI(ChatGPT的公司) 提起了版权诉讼。诉讼称,这两家公司复制并使用了数百万篇文章来训练LLM,而这些LLM与原出版物存在内容竞争。提出诉讼的依据是,GPT-4 几乎逐字逐句地复制了期刊文章中的一些段落。

2024年 2 月,OpenAI 向联邦法院提出要求驳回部分诉讼,认为“ChatGPT 绝不是订阅《纽约时报》的替代品” 。微软发言人也表示:“应当允许AI工具的开发以合法合规的方式进行,它们也不能替代杂志所扮演的重要角色。”

美国路易斯安那州一位版权和剽窃顾问表示,“如果法院裁定,未经许可使用文本训练AI确实侵犯了版权,这对AI公司来说将是一个巨大的打击。因为如果没有广泛的训练集,ChatGPT 等工具就不可能存在。”

AI的爆炸式增长

自 2022 年 11 月ChatGPT发布以来,AI在学术写作中的使用呈爆炸式增长

7 月更新的一项预印本研究中[3],研究者估计,2024 年上半年发表的生物医学论文中,至少有 10% 的摘要使用了LLM撰写——相当于每年 15 万篇论文。该研究由德国数据科学家 Dmitry Kobak 领导,分析了2010-2024 年6 月PubMed中的1400 万篇摘要。

Kobak及其同事发现,相比以英语为母语的国家,中国和韩国等国家的论文显示出更多使用LLM的迹象。Kobak预测,LLM的使用肯定会继续增加,并且越来越难被发现。

学术写作中不披露软件的使用,不是什么新鲜事。自 2015 年以来,法国图卢兹大学的计算机科学家 Guillaume Cabanac等研究者一直在揭露由论文生成软件 SCIgen编写的乱码论文,以及那些包含“扭曲短语”的论文,这些短语是由翻译或转换文本的软件所创建。Cabanac 表示,“在生成式AI出现之前,人们就有了一些瞒天过海的工具。”

AI对于学术写作是有价值的。研究者表示,它可以使文本和概念更清晰,减少语言障碍,并为研究执行和思考腾出时间

但是,对于哪些情况下使用AI会构成抄袭,或违反学术道德,人们仍感到困惑。美国马里兰大学计算机科学家 Soheil Feizi 表示,使用LLM改写已有论文显然是抄袭,但如果使用LLM来帮助表述想法(无论是根据提示生成文本,还是编辑草稿),只要将过程公开,就不该受惩罚。“我们应该允许人们使用LLM更清晰地表达自己的想法”。

目前,许多期刊都有在一定程度上允许使用 LLM的政策。在最初禁止使用 ChatGPT 生成文本后,《Science》于 2023 年 11 月更新了其政策,称在撰写稿件时需要完全披露AI的使用情况——包括所使用的版本和提示词。作者应对准确性负责,并确保不存在抄袭。《Nature》也表示,作者应在方法学部分描述 LLM 的使用情况。

相关阅读:《Science》更新投稿政策:放宽ChatGPT等AI在论文中的使用限制

对 TOP100学术出版商和期刊的分析发现,截至2023年10月,24%的出版商和87% 的期刊发布了生成式AI的使用指南[4]。几乎所有出版商都表示,AI工具不能被列为作者。但在允许使用的AI类型和披露程度上,各出版商政策有所不同。Weber-Wulff表示,关于AI在学术写作中的使用,迫切需要更明确的指南

相关阅读:BMJ:总结TOP100期刊关于ChatGPT等AI的使用指南

Abdul-Mageed表示,目前,LLM在撰写学术论文方面的广泛应用,受到其局限性的限制。用户需要创建详细的提示词,以描述对象、语言风格和研究领域。

然而,Abdul-Mageed 表示,研发人员正在开发一些应用程序,使研究者更容易获取专属的学术内容。在未来,用户将不必编写详细的提示词,只需简单地从下拉菜单中选择选项,按下按钮,就可以从头开始制作整篇论文。

AI工具的检测

随着LLM在写作领域的快速应用,一系列旨在检测AI使用的工具也应运而生。尽管许多工具都宣称准确率极高——在某些情况下超过 90%。但研究显示,大多数工具并没有达到。2023年 12 月发表的一项研究中[5],Weber-Wulff等人评估了学术界广泛使用的 14 种AI检测工具。只有 5种工具能够准确识别出 70% 及以上的文本,没有一种工具的准确率超过 80%

当有人通过同义词替换或将句子重新排序等方式对AI生成的文本进行轻度编辑后,这些工具的准确率下降到平均 50% 以下。作者写道,这样的文本“几乎无法被当前的工具检测到”。其他研究表明,要求AI多次转述文本,也会大大降低检测的准确率[6]。

AI检测还存在其他问题。一项研究表明,检测软件更有可能将非英语母语人士撰写的论文识别为AI生成的[7]。Feizi说,检测软件无法准确区分完全由AI撰写的文本和使用AI润色的文本。区分这些情况既困难又不可靠,并可能产生大量的误报,这会严重损害相关学者或学生的声誉。

本文整理自:https://www.nature.com/articles/d41586-024-02371-z

参考文献:

1. Sci Eng Ethics. 2015 Oct;21(5):1331-52.

2. Foltynek, T. et al. Int. J. Educ. Integr. 19, 12 (2023).

3. Kobak, D., González-Márquez, R., Horvát, E.-Á. & Lause, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2406.07016 (2024).

4. BMJ. 2024 Jan 31:384:e077192.

5. Weber-Wulff, D. et al. Int. J. Educ. Integr. 19, 26 (2023).

6. Sadasivan, V. S., Kumar, A., Balasubramanian, S., Wang, W. & Feizi, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.11156 (2023).

7. Patterns (N Y). 2023 Jul 10;4(7):100779.

------分割线------

医咖会8周岁啦,今年计划推出近10门科研课程(包括R语言绘图、公共数据库挖掘、文献计量学等)。快点击链接:【医咖会8周年】投你所爱,“课”不容缓!参与投票赢取神秘周边盲盒!-医咖社区 (mediecogroup.com),来投票你最感兴趣的课程。

评论
请先登录后再发表评论
发表评论
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈