上百篇AI预测模型论文使用的训练数据集可能是伪造的，已有期刊展开调查

2026-04-17 来源：医咖会

注：本文整理自Nature官网在2026年4月15日发布的一篇报道，原题目为“Dozens of AI disease-prediction models were trained on dubious data”

2026年2月26日，medRxiv预印本平台发表的一项研究称[1]，一些预测卒中和糖尿病风险的人工智能（AI）模型，其用于训练模型的公开数据集可能是伪造的。一些模型似乎已经在临床中使用，目前尚不清楚这是否导致了错误诊断。

目前至少有两家期刊正在调查使用这些数据集的研究。

论文链接：https://www.medrxiv.org/content/10.64898/2026.02.24.26347028v1

论文作者是澳大利亚昆士兰科技大学的统计学家Adrian Barnett团队，他们发现了124篇经过同行评审的论文，这些论文报告称使用了开放获取的健康数据集来训练机器学习模型，但论文中很少提供数据来源的相关信息。

分析发现，论文所用数据集存在许多不符合真实人类数据特征的异常情况，让人怀疑这些训练数据集可能是伪造的。

至少有两个模型已在印度尼西亚和西班牙的医院中使用。其中有个模型出现在了2024年提交的一项医疗设备专利申请中；还有两个是公开可用的网络工具，人们可以上传个人信息来检测风险水平。

使用来源不明的数据集所训练的预测模型，不应在临床决策中使用。如果这些工具不使用真实数据，很可能会做出错误的预测，导致临床医生做出不合适决策。

Bhaumik说，机构和资助者必须要求研究人员披露用于训练医疗应用AI模型的数据来源，期刊应拒绝不符合此要求的论文。该研究中发现有问题的数据集应该被撤下，以防止更多研究使用它们。

124篇使用可疑数据集的论文，作者来自32个国家。下表是第一作者来源的国家中，排名前10的国家。

公开共享的两个数据集

这项在medRxiv平台发布的研究所调查的两个数据集，是被人上传到了Kaggle平台，这是一个开发人员可以用来访问数据集以构建机器学习模型的平台。

卒中预测数据集

网址：https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset

第一个数据集为“卒中预测数据集（Stroke Prediction Dataset）”，描述为“可用于预测卒中事件的11个临床特征”。该数据集包含5110人的健康信息，包括心脏病史、婚姻状况、平均血糖水平和BMI等风险因素数据。

研究人员发现了一些异常。其中一个异常是缺失数据非常少，这不符合真实数据的情况，真实数据经常存在缺失，因为一些参与者会错过随访、退出研究或死亡。“在现实世界中收集的任何数据集都不可能完全完整”。

Barnett等发现，有104篇研究论文使用了这个数据集创建卒中预测模型，有一个模型已在印度尼西亚医院使用。有篇来自美国的论文显示，该模型正在一家“当地心脏诊所”部署。

这个卒中数据集由马德里的数据科学家Federico Soriano Palacios上传，已被下载超过288,000次。在Kaggle数据集的讨论区，Palacios指出数据来源保密，应仅用于教育目的。Palacios没有回复《Nature》杂志关于数据来源的询问。

糖尿病预测数据集

网址：https://www.kaggle.com/datasets/iammustafatz/diabetes-prediction-dataset

第二个数据集为“糖尿病预测数据集（Diabetes prediction data set）”，被描述为“可通过医疗和人口统计学数据预测糖尿病的综合数据集”。包含100,000人的信息，例如BMI、吸烟史和血糖水平。

但研究团队发现，所有参与者的数据中，只包含18个离散血糖值。Barnett说，考虑到人与人之间存在的巨大差异，这种情况是不可能的。研究团队还识别出了数千个看起来重复的值。

有21项研究使用这个数据集制作了糖尿病预测模型。这些模型尚没有在临床环境中使用。其中一项研究同时使用了上述两个数据集。

这个糖尿病数据集由印度的数据工程师Mohammed Mustafa上传，他在Kaggle上指出数据来自汇总的电子健康记录。在讨论区回复用户提问时，Mustafa指出“由于保密原因或其他限制，无法透露糖尿病预测数据集的具体来源”。Mustafa没有回复《Nature》杂志关于数据来源以及他是否知道这些数据在研究中被使用的问题。

Kaggle的媒体团队也未回复是否会调查这些数据集或采取任何行动。

相关论文的作者回应

3月份，研究人员在PubPeer上发布了他们对这124篇论文的担忧，几位论文作者做出了回应。

M. Karpagam是一位印度研究者，她是2025年4月发表在《Scientific Reports》上一篇论文的主要作者[2]，该论文使用这两个数据集开发了一个可以预测残疾人糖尿病和卒中严重程度的模型。Karpagam在PubPeer上写道，两个数据集是用于验证AI框架的性能，而不是用于做出临床结论。在另一条评论中，她写道：“在进行研究和提交稿件时，我们没有意识到数据集可能是合成或模拟的。”

当《Nature》杂志询问她和团队为何选择使用来源不明的数据集时，她回复说，“公开存储库中的数据集，通常被机器学习研究社区用作开发和评估预测模型的基准数据集”。

《Scientific Reports》主编Rafal Marszalek表示，他的团队审查了预印本中提到的五篇论文，包括Karpagam的论文，并会采取适当的行动。自3月31日以来，该期刊已撤回了其中三篇论文，撤稿声明指出“对研究中使用的数据的来源和有效性表示担忧”。

印度尼西亚的研究者Daniel Sengkey是使用卒中数据集的一篇论文的作者[3]，他在PubPeer上写道，该论文是“测试优化算法”项目的一部分，而不是为了构建可在临床上部署的模型。他补充说，数据质量低，模型性能一般，这一点在论文中予以了说明（Sengkey的模型不是在印度尼西亚医院使用的那个）。

预印本中提到的另一篇论文的出版商《Frontiers in Bioengineering and Biotechnology》在PubPeer上评论说，其正在评估受影响的论文。Frontier的研究诚信团队告诉《Nature》杂志，这些问题将“根据出版伦理委员会（COPE）指南进行彻底调查”。

参考文献：

1. Preprint at medRxiv https://doi.org/10.64898/2026.02.24.26347028 (2026).

2. Sci Rep. 2025 Apr 4;15(1):11633.

3. Indones J Electron Electromed Eng Med Inform. 2025;7:387-400.

文章整理自：https://www.nature.com/articles/d41586-026-00697-4

医咖会员全面升级，课程增多，AI工具升级！点击链接：会员-医咖社区 (mediecogroup.com)，立享会员优惠！‍

请先登录后再发表评论

发表评论