Nature:你能接受自己的论文被用于训练AI模型吗?
本文整理自Nature于2024年8月14日发布的一则新闻报道,原文题目为“Has your paper been used to train an AI model? Almost certainly”。
学术出版商正在向科技公司出售研究论文的访问权,以训练人工智能(AI)模型。一些研究者对这种未经作者同意进行的交易而感到愤怒。
专家表示,如果一篇论文尚未被用于训练大型语言模型(LLMs),那么也可能很快就会被使用了。研究者正在探索技术方法,让作者能识别其内容是否被用于训练。
上个月,英国出版商Taylor & Francis与微软签署了一项价值1000万美元的协议,允许其访问该出版商的数据以改进AI系统。2024年6月,美国出版商Wiley允许一家不知名公司使用其内容训练生成式AI模型,由此赚取了2300万美元。
华盛顿大学的AI研究员Lucy Lu Wang表示,无论是否储存在开放获取库中,任何可在线阅读的内容“均可能”被LLMs用于训练。她补充道:“如果一篇论文已经被用于训练模型,那么在训练完成后,是无法被删除的。”
海量数据集用于AI训练
LLMs在海量数据的基础上进行训练,这些数据通常来自互联网。它们从数以亿计的语言片段(称为tokens)之间派生出模式,从而以惊人的流畅度生成文本。
生成式AI模型依赖于从这些数据中吸收模式来输出文本、图像或计算机代码。美国Mozilla基金会的AI训练数据集分析员Stefan Baack表示,学术论文篇幅长且“信息密度高”,从而对LLMs建设有很大价值。
S2ORC是包含8110万篇学术论文的数据集,最初是为文本挖掘(应用分析技术中寻找数据的模式)而开发的,后来被用于训练LLMs。Wang是S2ORC的联合创始人,她声称,使用大量科学信息训练模型也能让它们更好地推理科学问题。
购买高质量数据集的趋势正在增长。今年,英国《金融时报》以一笔丰厚的回报将其内容提供给ChatGPT的开发商OpenAI,在线论坛Reddit也将其内容提供给谷歌。Wang说:“我认为未来会有更多这样的交易。”
如何验证论文是否被用于训练LLMs?
伦敦帝国理工学院的计算机科学家Yves-Alexandre de Montjoye表示,要验证任何一篇论文是否被LLMs用于训练都是很困难的。一种方法是,用文本中不常见的句子提示模型,看输出结果是否与原文中的下一个词匹配。如匹配,则说明该论文在训练集中。如不匹配,也不意味着该论文没有被使用。这是因为开发者可以编码LLMs来过滤响应,确保它们不与训练数据过于接近。
另一种方法称为成员推理攻击(Membership Inference Attack)。该方法基于这样一种理念:当模型看到它以前见过的东西时,它会对自己的输出更有信心。De Montjoye团队据此开发了一种监测版权作品是否用于AI训练的技术,称为版权陷阱(copyright trap)。
为了设置陷阱,该团队会生成看似合理但实际上毫无意义的句子,并将其隐藏在文章中。例如,在白色背景上显示为白色文本,或网页上显示为零宽度的字段。如果LLMs对未隐藏的句子表现出相比隐藏句子更多的“惊讶”(通过所谓的困惑度衡量),那么这就表明这些陷阱以前曾被看到过。
版权问题
即使证明LLMs已经使用过某文本进行训练,也不清楚接下来会发生什么。出版商坚称,如果开发者在训练中使用了受版权保护的文本,并且未经许可,这就构成了侵权。反驳的观点认为,LLMs并没有复制任何东西——它们从训练数据中获取信息内容,然后将其拆分,利用其学习成果生成新的文本。
相关阅读:Nature:论文撰写使用AI工具构成抄袭吗?界限在哪里?
诉讼可能有助于解决这一问题。在美国旧金山进行的一场版权案件中,《纽约时报》起诉了微软和LLMs的开发商OpenAI,指控这些公司未经许可使用其新闻内容来训练他们的模型。
许多学者都乐意将自己的作品纳入LLMs的训练数据中——特别是如果模型能提高其研究的准确性的话。Baack说:“我个人并不介意有一个按照我的风格写作的聊天机器人。”
目前,如果出版商决定出售其版权作品的使用权,那么作者目前几乎无权反对。对于开放获取的文章,还没有既定的方法来分配版权归属或了解文章是否被使用。
本文整理自:https://www.nature.com/articles/d41586-024-02599-9
------分割线------
点击链接:会员-医咖社区 (mediecogroup.com),成为医咖会员,学习SPSS、预测模型等50门科研课程!
