有调查显示,至少四分之一的临床试验不可信

2023-07-27 来源:医咖会

医学期刊上已经发表的临床试验,有多少是假的或存在致命缺陷?2020年10月,英国一位以发现可疑数据而闻名的麻醉领域专家John Carlisle报告了一项惊人的估计数据[1]。

Carlisle同时是期刊《Anaesthesia》的编辑,该研究数据来源于他在2017年至2020年评审过的500多项随机对照试验(RCTs)[1]。他获得了150多项试验匿名的个体参与者数据(IPD),分析发现,至少44%的试验包含有缺陷的数据,包括:不可能的统计数据、错误计算、重复的数字或图片。26%的论文存在很普遍的问题,导致试验结果不可信,Carlisle判断,要么是作者水平不够,要么是他们伪造了数据。

Carlisle称这些试验为“僵尸(zombie)”试验,因为他们看起来很真实,但仔细观察就能发现,这些试验实际上是个空壳,只是伪装成可靠的信息。

当Carlisle无法访问某个试验的原始数据时,他只能研究表格中的汇总信息。据他判断,只能发现这些试验的1%是“僵尸”试验,2%的数据有缺陷。这表明,如果没有个体参与者数据(期刊通常不会要求,审稿人也看不到),即使是有经验的科学侦探也无法发现试验中隐藏的问题。

图. "僵尸"试验的占比

Carlisle在麻醉领域发现的问题也能延伸到其他领域。一些研究者仔细审查了包括麻醉学在内多个领域的RCTs,比如女性健康、疼痛、骨骼健康和COVID-19,发现数十项或数百项试验的统计数据存在问题。一些研究表示,四分之一的试验不可信可能还低估了。伦敦一所大学的流行病学家Ian Roberts说:“如果你检索某个主题的所有RCTs,可能大约三分之一的试验都是伪造的。”

在某种程度上,这是臭名昭著的论文工厂问题的一个缩影:过去十年间,许多领域的期刊发表了数万篇疑似虚假的论文,其中一些是由第三方公司生产的,这些公司称为论文工厂。

伪造的或不可靠的RCTs是一种特别危险的威胁,不仅影响医疗决策,而且可能会被纳入荟萃分析和系统综述中。

虚假临床试验的一些案例

Roberts首次遇到虚假临床试验,是他在2005年与Cochrane协作组(Cochrane Collaboration)合著一篇系统综述时。综述的结论指出,高剂量含糖溶液可以降低头部受伤后的死亡率[2]。但有人对论文中引用的三项关键试验产生怀疑后,Roberts撤回了这一综述,这三项试验均由同一位巴西神经外科医生撰写。Roberts无从判断这些试验的真假,因为在调查开始之前这位医生就自杀了,其论文并未撤稿。

另外一个例子是日本研究者Yoshihiro Sato。Sato在数十项药物或补充剂预防骨折的试验中伪造了数据,目前已被撤稿了113篇文章。但其论文已经产生了广泛的影响:他撤稿的27项RCTs已被88篇系统综述和临床指南引用,其中一些为日本骨质疏松症的治疗提供了参考[3]。如果将Sato的试验排除,这些系统综述中有大约一半的结论将会发生改变。

对“僵尸”试验的担忧不仅源于某个人。研究者还担心,在某些领域,来自不同研究小组的大量RCTs可能也不可信。例如,在COVID-19大流行期间,抗寄生虫药ivermectin是否可以治疗COVID-19,就开展了一系列RCTs。未参与其中的研究人员后来指出,许多研究存在数据缺陷(其中一些研究现已被撤回)。2022年更新的Cochrane综述认为,超过40%的RCTs是不可信的[4]。

孕产妇健康是另一个问题较多的领域。2016年,Roberts等人关注到一种名为tranexamic acid的药物预防分娩后大出血的研究。通过对相关试验的审查,他报告称,该药物相关的26项RCTs中,有许多存在严重问题(包括相同的文本内容、数据不一致、没有伦理审批记录,没有按照随机化原则分组等)[5]。目前尚不清楚这些不可信的研究是否影响了临床实践。世界卫生组织(WHO)建议使用tranexamic acid治疗分娩后失血,但没有推荐用于预防。

2018年,研究人员发表了一篇Cochrane综述,剖宫产孕妇服用类固醇是否有助于减轻婴儿的呼吸问题[6]。研究人员纳入了四项RCTs,综述得出的结论是,类固醇“可能”降低呼吸问题的发生率。直到2021年12月,该团队基于Cochrane新的指导意见更新了综述[7]。该指导意见是Cochrane研究诚信团队在2021年提出的:作者应尝试识别“有问题”或“不可信”的试验,并将其排除。最终,该综述仅剩下一项试验没有被排除,最新的结果是,“没有足够数据”来得出关于类固醇的确切结论。

Cochrane妊娠和分娩(CPC)小组开发了一项对RCTs可信度进行筛查的方案,该方案提供了作者应遵循的详细标准列表,以检查RCT的可信度,例如:试验是否前瞻性注册,研究有无异常统计数据(例如参与者身高,体重或其他特征的分布过窄或过宽)。其他Cochrane作者也开始采用同样的方案,例如,去年11月发表的旨在预防早产的药物中,使用该方案排除了四分之一的试验[8]

怎样的研究才算可信的临床试验?

可信度筛查有时是否对RCTs的作者不公平,应该检查哪些内容来区分不可信的研究,这些都还存在争议。将真实的研究错误分类为有问题的研究,也可能会导致错误的综述结论。Cochrane的高级研究诚信编辑Lisa Bero在2021年一篇社论中首次提出可信度筛查的想法时[9],指出没有一种高效且普遍认可的方法。

有些研究者则认为,审稿人使用哪种可信度筛查方式并不特别重要,只要他们采取行动来更仔细审查RCT即可,不可信的系统综述比不可信的原始研究危险得多

要求作者提供原始数据?

国际医学期刊编辑委员会(ICMJE)曾在2016年强制RCTs共享数据,但是遭到抵制,因此,在2017年的新版指南中,仅仅鼓励作者共享数据。然而,包括Carlisle担任主编的《Anaesthesia》在内的一些期刊,已经要求作者提供个体参与者数据(IPD)。

除了要求提供数据外,期刊编辑还应加快决策速度。2023年4月,一份关于可重复性和研究诚信的报告称,当研究者提出问题时,出版商应当在两个月内发表更正或撤稿。同时,Cochrane协作组在2021年更新的指南中指出,当发生撤稿时,必须更新系统综述。

参考文献:

[1] Anaesthesia.2021;76(4): 472-479.

[2] BMJ.2007;334(7590):392-4.

[3] Account Res.2022;1-24.

[4] Cochrane Database Syst Rev.2022;6(6):CD015017

[5] BJOG.2016;123(11):1745-52.

[6] Cochrane Database Syst Rev.2018;8(8):CD006614.

[7] Cochrane Database Syst Rev.2021;12(12):CD006614.

[8] Cochrane Database Syst Rev.2022 Aug 10;8(8):CD014978.

[9] Cochrane Database Syst Rev.2021;6(6):ED000152.

文章整理自:

Nature.2023;619(7970):454-458

评论
请先登录后再发表评论
发表评论
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈