有调查显示，至少四分之一的临床试验不可信

2023-07-27 来源：医咖会

医学期刊上已经发表的临床试验，有多少是假的或存在致命缺陷？2020年10月，英国一位以发现可疑数据而闻名的麻醉领域专家John Carlisle报告了一项惊人的估计数据[1]。

Carlisle同时是期刊《Anaesthesia》的编辑，该研究数据来源于他在2017年至2020年评审过的500多项随机对照试验（RCTs）[1]。他获得了150多项试验匿名的个体参与者数据（IPD），分析发现，至少44%的试验包含有缺陷的数据，包括：不可能的统计数据、错误计算、重复的数字或图片。26%的论文存在很普遍的问题，导致试验结果不可信，Carlisle判断，要么是作者水平不够，要么是他们伪造了数据。

Carlisle称这些试验为“僵尸（zombie）”试验，因为他们看起来很真实，但仔细观察就能发现，这些试验实际上是个空壳，只是伪装成可靠的信息。

当Carlisle无法访问某个试验的原始数据时，他只能研究表格中的汇总信息。据他判断，只能发现这些试验的1%是“僵尸”试验，2%的数据有缺陷。这表明，如果没有个体参与者数据（期刊通常不会要求，审稿人也看不到），即使是有经验的科学侦探也无法发现试验中隐藏的问题。

图. "僵尸"试验的占比

Carlisle在麻醉领域发现的问题也能延伸到其他领域。一些研究者仔细审查了包括麻醉学在内多个领域的RCTs，比如女性健康、疼痛、骨骼健康和COVID-19，发现数十项或数百项试验的统计数据存在问题。一些研究表示，四分之一的试验不可信可能还低估了。伦敦一所大学的流行病学家Ian Roberts说：“如果你检索某个主题的所有RCTs，可能大约三分之一的试验都是伪造的。”

在某种程度上，这是臭名昭著的论文工厂问题的一个缩影：过去十年间，许多领域的期刊发表了数万篇疑似虚假的论文，其中一些是由第三方公司生产的，这些公司称为论文工厂。

伪造的或不可靠的RCTs是一种特别危险的威胁，不仅影响医疗决策，而且可能会被纳入荟萃分析和系统综述中。

虚假临床试验的一些案例

Roberts首次遇到虚假临床试验，是他在2005年与Cochrane协作组（Cochrane Collaboration）合著一篇系统综述时。综述的结论指出，高剂量含糖溶液可以降低头部受伤后的死亡率[2]。但有人对论文中引用的三项关键试验产生怀疑后，Roberts撤回了这一综述，这三项试验均由同一位巴西神经外科医生撰写。Roberts无从判断这些试验的真假，因为在调查开始之前这位医生就自杀了，其论文并未撤稿。

另外一个例子是日本研究者Yoshihiro Sato。Sato在数十项药物或补充剂预防骨折的试验中伪造了数据，目前已被撤稿了113篇文章。但其论文已经产生了广泛的影响：他撤稿的27项RCTs已被88篇系统综述和临床指南引用，其中一些为日本骨质疏松症的治疗提供了参考[3]。如果将Sato的试验排除，这些系统综述中有大约一半的结论将会发生改变。

对“僵尸”试验的担忧不仅源于某个人。研究者还担心，在某些领域，来自不同研究小组的大量RCTs可能也不可信。例如，在COVID-19大流行期间，抗寄生虫药ivermectin是否可以治疗COVID-19，就开展了一系列RCTs。未参与其中的研究人员后来指出，许多研究存在数据缺陷（其中一些研究现已被撤回）。2022年更新的Cochrane综述认为，超过40%的RCTs是不可信的[4]。

孕产妇健康是另一个问题较多的领域。2016年，Roberts等人关注到一种名为tranexamic acid的药物预防分娩后大出血的研究。通过对相关试验的审查，他报告称，该药物相关的26项RCTs中，有许多存在严重问题（包括相同的文本内容、数据不一致、没有伦理审批记录，没有按照随机化原则分组等）[5]。目前尚不清楚这些不可信的研究是否影响了临床实践。世界卫生组织（WHO）建议使用tranexamic acid治疗分娩后失血，但没有推荐用于预防。

2018年，研究人员发表了一篇Cochrane综述，剖宫产孕妇服用类固醇是否有助于减轻婴儿的呼吸问题[6]。研究人员纳入了四项RCTs，综述得出的结论是，类固醇“可能”降低呼吸问题的发生率。直到2021年12月，该团队基于Cochrane新的指导意见更新了综述[7]。该指导意见是Cochrane研究诚信团队在2021年提出的：作者应尝试识别“有问题”或“不可信”的试验，并将其排除。最终，该综述仅剩下一项试验没有被排除，最新的结果是，“没有足够数据”来得出关于类固醇的确切结论。

Cochrane妊娠和分娩（CPC）小组开发了一项对RCTs可信度进行筛查的方案，该方案提供了作者应遵循的详细标准列表，以检查RCT的可信度，例如：试验是否前瞻性注册，研究有无异常统计数据（例如参与者身高，体重或其他特征的分布过窄或过宽）。其他Cochrane作者也开始采用同样的方案，例如，去年11月发表的旨在预防早产的药物中，使用该方案排除了四分之一的试验[8]

怎样的研究才算可信的临床试验？

可信度筛查有时是否对RCTs的作者不公平，应该检查哪些内容来区分不可信的研究，这些都还存在争议。将真实的研究错误分类为有问题的研究，也可能会导致错误的综述结论。Cochrane的高级研究诚信编辑Lisa Bero在2021年一篇社论中首次提出可信度筛查的想法时[9]，指出没有一种高效且普遍认可的方法。

有些研究者则认为，审稿人使用哪种可信度筛查方式并不特别重要，只要他们采取行动来更仔细审查RCT即可，不可信的系统综述比不可信的原始研究危险得多。