一个公开的疾病图像数据集,竟然出现了多个知名演员的照片

刚刚 来源:医咖会

澳大利亚昆士兰科技大学统计学家阿德里安·巴内特(Adrian Barnett的音译)在翻阅一个“卒中患者”在线图像数据集时,发现了几张熟悉的面孔:史泰龙在《第一滴血》中饰演的兰博,以及他在红毯上的照片,此外,乔治·克鲁尼、安吉丽娜·朱莉和丹尼尔·克雷格等演员的照片也出现在了数据集中

图. 史泰龙在《第一滴血》中饰演的兰博及其他知名演员。

关于“卒中患者”图像数据集

这个数据集被存放在开源平台Kaggle上名为"droopy"的文件夹中,目前仍可在线获取。 

图. 数据集链接:https://www.kaggle.com/datasets/kaitavmehta/facial-droop-and-facial-paralysis-image

数据集的简介显示:“本卒中数据集采集自Google图片,因此可能涉及版权问题。本人仅出于教育目的使用这些图像生成卒中面部特征。”

但巴内特及其博士生亚历山大·吉布森(Alexander Gibson的音译)通过反向图片搜索发现,其中许多图像实际上展示的是贝尔氏麻痹症(一种面部神经麻痹)患者,此外还混杂着儿童、婴儿及知名演员照片。

数据集中的图片重复问题显而易见,其上传者在Kaggle上称其包含1024张“不同患者”的图像

巴内特表示,“这显然不适合严谨的科学研究,无论是在伦理上还是科学上,只要使用者做了最基本的核查,就不会去使用它。”

有论文已经使用了该数据集

吉布森在Google Scholar里搜了"Kaggle"和"stroke",很容易就找到了一篇基于这个数据集的文章。

原文链接:https://www.nature.com/articles/s41598-025-28513-5

这篇文章于2025年12月发表在《Scientific Reports》上。论文使用了两个据称包含卒中患者图像的数据集,来训练一个可以实时检测卒中并辅助"快速临床干预"的模型。文中使用的另一个数据集现已被Kaggle移除

施普林格·自然收到举报后,在论文上标注了“Editor's Note”,警示读者该文章的数据可靠性存疑,后续处理将视调查结果而定。该论文的通讯作者目前未予回应。

Kaggle上的其他问题数据集

谷歌旗下、供用户上传数据集的开源平台Kaggle上的数据集并不是首次遭受质疑。

吉布森是在为自己的博士研究寻找临床预测模型数据集时,发现这些可疑数据的。他很快找到了Kaggle及存放其中的大量数据集。

为了描述这个问题,吉布森和巴内特重点分析了关于卒中和糖尿病的两个数据集,并找出了124篇基于此构建模型的已发表论文。2026年2月该研究成果以预印本的形式发表在medRxiv上。(详见:上百篇AI预测模型论文使用的训练数据集可能是伪造的,已有期刊展开调查

该报告追踪了这些数据如何在科学文献中流转,甚至在某些情况下进入临床实际应用。目前已有数篇相关论文被撤稿。报告称,这两个数据集都未能通过针对临床预测模型数据来源设计的核查清单,连基本的“who,when,where,why”都没有交代清楚。

吉布森和巴内特在PubPeer上提出质疑时,一篇论文的通信作者回应,另有25篇文章也使用了相同的数据集,“这个数据集在当前文献中持续存在,表明它仍是该领域中被普遍接受的资源。”

这篇论文于2024年发表在《Scientific Reports》上,已经在2026年4月被撤稿。撤稿声明显示,作者无法提供有关数据来源或准确性的任何信息。 

图.撤稿声明,https://www.nature.com/articles/s41598-026-47902-y

也有一些论文试图解释卒中数据的来源:两篇引用了孟加拉国的诊所;一篇提到了“知名医疗机构”;一篇说是来自临床志愿者;另有一篇将其归为一家公司的电子健康记录。巴内特认为其中大多数是在明目张胆撒谎。

还有一篇论文承认缺乏来源信息,但依然给出了临床使用建议。

大多数研究都给出了将这些模型应用于患者的临床推荐,且大多没有包含伦理审查声明。至少有两个模型开发了对应的公开使用网站,其中之一还与加州理工学院和南加州大学注册的一项医疗设备专利关联。有一篇论文称其描述的模型将在印度尼西亚的一家医院投入使用;另一篇则宣称其模型已成功诊断卒中;还有一篇论文的作者表示正在当地的一家心脏诊所部署其训练出的模型。

巴内特和吉布森还发现,识别出的问题论文已经被86篇综述文章引用

在使用这些可疑数据集的论文中,11篇发表在施普林格·自然旗下的期刊上,9篇发表于爱思唯尔,11篇发表于MDPI旗下期刊,三家出版商均表示正在进行调查

2026年4月,上述发现被《Nature》新闻栏目报道,详细描述了这些数据集不仅包含数千条重复的患者观测记录,而且缺失值极少,这在真实的临床数据中几乎是不可能的。

此外,2025年12月,《The Transmitter》曾报道,因使用了未经同意或验证的儿童面部数据集来训练模型,施普林格·自然撤回了近40篇论文。(详见:Springer Nature撤回近40篇论文,因为它们使用的这个数据集存在问题

作者们的看法及Kaggle的反应

巴内特和吉布森认为,所有基于这些数据集开发的在线工具都应立即下线,直到其来源得到确认为止,且上述124篇论文全部都应加上关注声明

还有人表示,数据存储库很难真正控制每个人都规范使用数据,因此数据库方应该完善其文档记录机制

Kaggle的一位发言人表示,该平台元数据及数据来源信息依赖社区自主上报。在Kaggle上使用合成数据是完全合法的,但这些数据集旨在用于基准测试和开发,而非作为医学研究或决策的主要证据。上述预印本中提到的数据集并未违反Kaggle的服务条款,如果违反,平台会将其删除。

文章整理自:https://retractionwatch.com/2026/05/18/kaggle-dataset-clinical-models-stroke-diabetes/#more-134918

医咖会员全面升级,课程增多,AI工具升级!点击链接:会员-医咖社区 (mediecogroup.com),立享会员优惠!

评论
请先登录后再发表评论
发表评论
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
论文辅导
扫码添加小咖微信,为你定制一对一论文辅导方案!
会员服务
SCI-AI工具
积分商城
意见反馈