挖掘全球研究论文的“野心”

2019-07-19 来源：

去年，Carl Malamud（一位60岁的美国技术专家），在没有告知出版商的情况下，与印度研究人员合作，搭建了一个巨大的文本和图像数据库，提取1847年至今的7300万篇期刊文献的数据。数据库搭建在新德里贾瓦哈拉尔尼赫鲁大学（JNU）。

Malamud表示“该数据库并没有采集每篇发表过的文献，但文献量依然巨大，体量与Web of Science数据库的核心集相当”。Malamud及JNU合作者生物信息学家Andrew Lynn，将其称为JNU数据仓库。Malamud设想的是，扫描全球的科学文献，利用软件提取文献的文本和图片数据，给出科学洞察，而不需研究者实际阅读原始文献。

该项目引起众多研究者的兴趣，因为它释放了大量付费文献，以便于进行计算机分析。既往已有众多研究小组在挖掘文献，建立基因和化学数据库，绘制蛋白质和疾病之间的联系，并产生了有用的科学假设。然而，出版商限制了这些项目的发展速度和范围，通常限制只能访问摘要而非全文。因此，印度、美国和英国的一些研究人员已经决定转向使用JNU数据库。

不过，该数据库的合法性尚不清楚。Malamud在开始建设数据库之前，联系了几位知识产权（IP）律师，希望免予诉讼。“我们认为我们所做的事情是完全合法的”。目前，他仍然很谨慎：JNU数据库是隔离网络（air-gapped），没有人可以从互联网访问到。用户需要物理访问该数据库，目前只有非商业用途的研究人员才可以进入。Malamud表示，计划在未来允许远程访问。

搭建JNU数据库的契机

这个项目的触发点是2016年德里高等法院的一项判决，该案件针对的是德里大学校园里的一家复印店。多年来，该店一直复印昂贵的教科书，提供给学生课程包。教科书价格在7-277美元不等，对很多学生来说是无法负担的。2012年，三家出版商对该大学提起诉讼，要求其购买复制文本的许可权。但德里高等法院驳回了该诉讼。

搭建JNU数据库的契机

（图片来源：Nature官网）

Malamud在听说该判决的时候，手上已经有了8个硬盘，包含来自SCI-Hub的数百万期刊文献（他未说是如何获得的）。Sci-Hub本身因侵权受到诉讼，但是其部分域名仍在运行。Malamud开始思考是否可以通过Sci-Hub来使印度学生受益。

最终，他还是把注意力放在了JNU文本挖掘上。他对该数据库的文章来源未明确说明，有人询问这些文章是否来自SCI-Hub，他未给出答复，仅列出免费论文下载的一些合法来源（如PubMed Central和Unpaywall）。但他也明确说，没有与出版商签订任何合同。

数据挖掘的力量

加州大学圣克鲁兹分校（UCSC）的生物信息学家Max Häussler表示，JNU数据库可以帮助扫清科学家使用软件对研究进行分析的障碍，“目前几乎不可能对学术论文进行文本挖掘，甚至那些已经付费购买过文章的人”。

自2009年以来，Häussler团队一直在构建在线UCSC基因组浏览器，将人类基因组的DNA序列与提及相同序列的研究论文关联起来。为此，研究人员联系了40多家出版商，请求允许他们使用软件从研究中探索相关的DNA序列。但是15家出版商没有回复甚至明确拒绝。Häussler不确定是否可以在未经许可的情况下合法地挖掘论文信息，所以没敢尝试。

曾在柏林QUEST转化生物医学中心工作的统计学家Chris Hartgerink表示，他现在只对开放获取出版商的文献进行文本挖掘，因为与“封闭出版商打交道太麻烦了”。几年前，当Hartgerink在荷兰攻读博士学位时，批量下载文献进行数据挖掘时，有三家出版商限制了他的访问权限。

一些国家已经改变了法律，确保非商业使用的研究人员不需要版权方的许可来挖掘可合法访问的内容。英国于2014年通过了这项法律，欧盟今年也通过了类似的规定。但无法合法访问论文的贫穷国家的学者仍处在困境。

即使在英国，出版商也会进行“合理地”限制，例如，限定电子搜索或批量下载的速度，以防止服务器过载。英国曼彻斯特大学的John McNaught认为，这样的限制大有问题，“每五秒下载一篇文章的限制，对于一个人来说，听起来很快，但对于一台机器来说却非常缓慢。下载600万篇文献需要一年，下载所有已发表的生物医学文献，需要5年时间”。

研究者们在挖掘时还需要克服一些技术难题。很难从出版商使用的排版和设置中提取文本，这也是JNU团队目前正在努力解决的问题。例如，将PDF转换为纯文本的工具，并不总能清楚地区分段落、脚注和图片。一旦JNU团队完成了这项工作，其他人都能从中获益。Malamud说，他们团队即将完成对7300万篇论文的第一轮提取，但还需要检查错误，预计该数据库在年底前完成。

有些研究者已经准备好开始使用JNU数据仓库了。生物信息学家Srinivasan Ramachandran的团队，运行了一个与2型糖尿病相关的基因数据库，他们一直在抓取PubMed摘要来寻找合适的文献。他希望借助JNU数据库来扩大其挖掘网络。

冒险的事情

当Nature联系15家出版商询问关于JNU数据库的事情时，回复的6位人士表示，他们第一次听说，在没有更多信息的情况下无法评论其合法性。但6家出版商都明确表示，挖掘论文的研究人员需要获取授权。

Sci-Hub发布的数据显示，印度是其网站的全球最大用户国家之一。Malamud承认，目前在做的事情存在一些风险，但他认为这样做“在道德上至关重要”。

文献来源：The plan to mine the world’s research papers. Nature. 17 JULY 2019.