UKB数据被人在闲鱼上售卖,UKB调查后发布了一个50多页的报告

前段时间,UK Biobank(英国生物银行,下面简称UKB)在中国被第三方售卖的消息被曝光出来。UKB官方随即撤销了相关研究者对其平台的访问权限。6月4日,UKB发布了一份报告,总结了监督委员会的调查结果,并提出了九项建议和行动方案。
报告链接:https://www.ukbiobank.ac.uk/news/report-into-data-security-at-uk-biobank-published/
以下是对该报告摘要部分的翻译:
此前发现有去标识化的参与者数据从 UK Biobank 的云端研究分析平台(UKB-RAP)中被导出来,并被挂到一个网站上出售,这违反了与研究者及其所属机构签订的《材料转移协议》(Material Transfer Agreement)(以下称“本次事件”)。
本次事件曝光后,委员会着手尽快完成本报告。委员会提出了九项明确的建议,这些建议不仅针对本次事件,也更广泛地涉及参与者数据的安全问题,委员会强烈表示应将这些建议全部落实到位。
发生了什么?
最初的告知来自一封电子邮件,发件人是一位匿名的、据推测可能身在中国的研究者。该告知指出,去标识化的 UK Biobank 参与者个体层级数据正在闲鱼平台上出售。在对这个平台的所有商品逐一核查后,UKB又发现了另外两个提供 UKB数据访问的商品。“我们认为,他们均没有真正售出过任何数据。”
• 情形一:关联到一个由中南大学湘雅二医院开展的已获批项目。该项目的主要研究者(PI)确认:一名并未登记在该项目中的研究生,盗用了一位同事(该项目的一位研究者)的账号凭证,违规导出了数据,随后将其挂到闲鱼上出售。
• 情形二:调查同时涉及北京朝阳医院和中日友好医院(以及其他合作方)。这些参与方申请数据时均已获批,目前北京朝阳医院与中日友好医院(作为主要研究机构)已被禁止继续访问。
• 情形三:追溯到一份由同济医院获批的申请。该申请的PI表示,其所在机构的一名临时雇员(并非该项目登记在册的研究者)通过一名项目研究者的账号非法访问了 UKB研究分析平台(UKB-RAP),并导出了数据。
• 在以上三种情形中,UKB认为相关人员都是先对去标识化的参与者个体层级数据(本次涉及的是表格数据)进行了修改,再将其从 UKB-RAP 导出到本地环境中,随后通过闲鱼对外出售。这违反了 UKB的政策,也严重违反了 UKB与相关研究机构之间的《材料转移协议》。相关的研究者和机构已被禁止继续访问UKB资源。
• 平台第一时间下架了这些商品,同时设置了自动搜索,以便清除任何后续与UKB相关的出售。
• UKB已通过电子邮件或邮寄的方式,向参与者们去信,提醒他们注意本次事件,以便他们就是否继续留在研究中做出知情决定。
综合考虑整体情况,鉴于该数据集是匿名化的、且无法确认真实发生过销售,基于目前调查所做的风险评估认为:本次事件已被迅速控制住。截至目前,收到的参与者退出申请数量仍然很少。尽管如此,UKB认识到本次事件给部分参与者带来了重大担忧,也可能造成对 UKB信任的流失,本报告正是希望以诚恳和谦卑的态度来回应这些问题。
数据集是如何被导出的:UKB面临的风险与暴露
UKB 于 2012 年开放研究者访问。当时的访问模式是允许获批的研究者将去标识化的数据下载到自己的环境中进行分析,这也是当时向研究者提供研究数据的通行做法。研究者需签署《材料转移协议》,协议规定了使用条款,并要求他们在研究项目结束时删除所下载的去标识化参与者数据。
随着 UKB 研究数据资源规模的扩大和技术的发展,UKB 采购了一套平台,使研究者能够在安全、受控的环境中使用去标识化数据。UKB-RAP 于 2020 年上线,可通过该平台访问大规模全基因组测序数据。其他去标识化数据则仍像以前一样可供下载。
2024 年中,UKB 推行了“默认使用平台”(Platform-by-default)的政策。除少数有限的例外情况外,所有获批研究者都只能通过 UKB-RAP 访问 UKB 数据。当时已设有政策和技术上的管控,以限制研究者下载去标识化的参与者数据。不过,研究者仍可以从 UKB-RAP 下载自己的分析和结果数据。目前尚没有“输出检查”或“数据闸口”(airlock)机制,来对所有输出进行筛查、确认研究者没有把参与者个体层级数据夹带在输出之中。
此外,作为本次事件的结果,UKB-RAP 已经关闭。在“输出检查系统”(Output Checking System,OCS)部署到位之前,平台不会重新开放。这套系统在初期很可能是人工系统。
鉴于 UKB 的使用规模,人工检查会非常耗费资源。因此,UKB 此前已经在开发一套自动化的 OCS,用以在人工系统之后,进一步提供这些下载限制。这项工作在本次事件之前就已经在推进。需要明确说明的是:UKB、英格兰国民保健署(NHS England)和政府早在 2025 年就已达成一致,在这类检查到位之前,全科医生(GP)数据不会通过 UKB-RAP 提供。自动化 OCS 的开发与部署目前正处于公开采购的最后阶段,计划于 2027 年初实施。一旦 OCS(人工或自动)部署到位,本次事件这样的情况就不应该再会发生。
委员会还考虑了 2024 年之前下载的去标识化数据所带来的持续风险,这部分在第 3 节中有详细讨论。对于任何研究资源而言,在“便利数据访问”(其中难免涉及一定程度的风险)与“限制访问”(风险被缓解了,但研究效用也随之降低)之间,都需要取得一种平衡。不过,委员会有一个明确的观点:在数据安全方面,UKB 的做法应当是对风险持最低限度的容忍,委员会的各项建议正是基于这一点提出的。
建议 1: 内部报告与治理
UKB 内部对此类事件的治理和报告机制已经过审查。内部规程本身运作得还算可以,但需要做得更进一步、反应更迅速。
行动:已设立一个董事会下属的常设委员会,以便相关风险/事件能尽早被注意(在事件首次被识别后的 24 小时内),并按必要程度进行优先级排序,再向董事会升级上报。
建议 2: 与参与者的沟通
联系参与者所花的时间太长了。
行动:UKB 将设法获取其所有参与者的联系方式,并采购一项电子邮件服务和邮寄服务,使其能够在同一天向所有参与者发送电子邮件或纸质信件,并处于长期待命状态。
建议 3 :对 UKB 数据和系统的安全审查
尽管这并非本次事件的成因,但已有多家医疗机构遭遇过来自外部黑客攻击和其他网络威胁。UKB 数据的存储、使用及基础设施的安全性需要接受审查,必要时进一步加固(并证明其确实足够稳健)。
行动:将立即委托对 UKB 的系统和数据管理进行一次外部安全审查。
建议 4 :审查研究者使用参与者去标识化数据的访问流程及其监督机制
评估访问政策和流程。查明哪些环节依赖于系统功能、报告、政策或法律合规。审查 UKB 运作所依据的法律框架,以及对申请的监督。审查对研究者实施更广泛制裁的做法。
行动:立即着手对访问流程及相关管控(包括各项监督管控的有效性)进行一次端到端的审查,并视需要引入外部协助。
建议 5 :在 UKB 内部建立主动的网络与数据安全能力
持续评估和审查访问权限、安全规程以及监督机制的有效性,以便识别并缓解研究者或第三方的滥用行为,或发现 UKB 数据出现在面向公众的线上环境中的情况。这将需要外部安全顾问提供大量投入和建议,以建立一套最先进的能力。
行动:建立一套稳健的主动能力,其中包括在 UKB 内部组建一支专门的安全团队。
建议 6 :处理已下载数据的规程(涵盖“默认使用 UKB-RAP”政策推行前后的数据)
有必要在尽可能的范围内清除研究者持有的已下载数据集。这需要对已完成或已终止项目的下载数据的删除情况进行确认并加以审计(《材料转移协议》的条款允许这样做)。后者将通过设置激励措施,推动所有研究项目迁移到 UKB-RAP 上。
行动:执行相关规程,快速清除这些数据,并对结果进行基于风险的审计。
建议 7 : 阻止从 UKB-RAP 下载数据
这要求阻止今后从 UKB-RAP 下载任何参与者个体层级的去标识化数据。英国卫生与社会保障部(DHSC)即将出台关于“安全数据环境”(Secure Data Environment,SDE)的指南,UKB-RAP 在这些要求公布后需要满足其规定。
行动:立即评估并实施所规划的人工数据闸口所需的功能,同时审查自动化数据闸口的技术规格(该规格也应纳入对数据导入能力的管控,一旦相关条件就绪即予加入)。在 SDE 的相关要求明确后,确保 UKB-RAP 满足这些要求。
建议 8:评估再识别风险
尽管这一主题在科学期刊上已有广泛讨论,但仍缺乏确凿证据和概率上的严谨性,用于评估和度量风险的方法也五花八门。
行动:这一问题影响到所有涉及已获知情同意的参与者和/或患者数据的研究项目,因此提议,联合其他研究资源发起一项协作性审查,委托外部研究来探究再识别的风险,以及可用于降低该风险的各种措施(例如泛化处理、差分隐私、随机化以及同态加密的使用)。这项工作需要同时考虑当前和未来的技术,尤其要放在下一代 AI 模型的背景下来考量。
建议 9 :风险评估复核
本次事件应促使董事会重新审视其风险偏好,短期内聚焦于数据暴露或数据丢失。
行动:审计与风险委员会应更新战略风险描述,并审视需要哪些新的管控措施,以便向董事会提供保证:相关风险处于(或将处于)董事会复核并商定的既定风险偏好范围之内。
监督委员会已于 2026 年 6 月 1 日将本报告呈交 UKB 董事会,董事会予以认可和批准,授权由执行层着手落实上述各项建议,并由监督委员会监督、置于其直接治理之下。董事会与监督委员会一致认为,发布本报告很重要,借此彰显 UKB 对公开和透明的一贯承诺。
完整报告,请查看:调查报告
