以卒中临床试验为例,介绍一些新的试验设计与方法

RCT的执行和完成,近年来变得越加复杂和具有挑战性。除了试验过程中的挑战外(如获得伦理审批、确定试验地点、培训试验人员、招募到目标数量的患者),RCT的设计和统计分析也变得更加复杂。

目前试验设计和分析有了一些创新,如适应性设计、贝叶斯方法、平台试验和非劣效性试验等。2024年10月期的《Stroke》期刊推出了一个新系列[1],预计在几个月的时间里发表4篇文章介绍这些新方法,目前已发表了介绍适应性设计和贝叶斯方法的两篇文章,感兴趣的小伙伴,可在附件中直接下载

当前卒中试验面临的挑战

如今,卒中试验变得更加复杂、昂贵和难以完成,试验需要更长的时间才能达到目标入组人数,管理负担日益加重。在试验开始之前,获得多中心试验机构审查委员会的伦理批准依然是一项挑战,即使美国和澳大利亚等国引入了单一机构审查委员会政策,但同时与多个地点的委员会合作往往是一项艰巨的任务。

在获得批准并开始试验后,寻找和招募符合条件的受试者难度也越来越大。随着治疗方法越来越先进,试验的复杂性也随之增加,患者的入组标准也往往变得更加严格。获得卒中患者的知情同意一直是个难题,尤其是在急性期的情况下,这往往是限制病例入组的一个重要环节。研究者还需要注意确保少数群体和女性在试验中的代表性。最后,在数据收集和确保高随访率方面也存在挑战,同时也给工作人员和患者造成负担。

过去10 年,已有一些重大措施来应对当前急性卒中试验所面临的一系列挑战。许多措施可以由研究者在设计研究时直接实施,例如,扩大患者的纳入标准、简化知情同意流程、或扩大远程医疗和移动医疗技术的使用。

除了资助者和研究者自身可以提高卒中试验效率外,试验设计和统计方法的创新也在不断涌现,可以帮助解决试验效率低、代表性和外推性差的问题。

传统的频率学派分析方法(P<0.05的“暴政”)

临床试验的一个重大转变涉及如何对试验进行统计分析以及如何展示试验证据。尽管P值的局限性已得到公认,但RCT仍采用传统的频率学派方法进行分析,即以P值是否<0.05的阈值来衡量试验是否成功。这种方法,将那些报告P<0.05的试验视为赢家(P值越小,赢面越大),将P>0.05的试验视为输家(P值越大,失望越大)。

我们目睹了在一次重要会议上,当演讲者报告一项试验的P值为0.28时,参会者集体发出失望的叹气声。同样,当一项血栓切除术试验报告P值<0.001时,会场上爆发出热烈的掌声。在一次心脏病学会议上,当一项试验的P值为0.00001 时,全场甚至起立鼓掌。

虽然在这些例子中,也通过OR或RR展示了治疗效应值,但毫无疑问,许多人都认为只有P值才是真正重要的。任何研究,更不用说RCT这样复杂的研究,仅仅通过这种二元视角来看待,既愚蠢又不科学。

人们早已认识到P值作为统计推断工具的局限性。有趣的是,最初发明P值的R.A. Fisher只是把P作为一种非正式的指标来帮助进行推断。后来,Neyman和Pearson才将P值纳入我们今天所熟知的统计假设检验过程中。

我们也承认,如果P值附有置信区间而不是孤立地进行解读,其中一些错误是可以减少的。我们也注意到,在确定交互效应或进行非劣效性检验时,P 值仍然发挥着重要作用。然而,P 值的局限性始终存在,幸运的是,新的分析方法和新的流派正在开始消除对 P 值和传统假设检验的过度依赖。《Stroke》推出的这个系列正是要强调这些方法。

替代性设计和统计方法

近年来,试验设计和方法的创新速度令人印象深刻。即使是受过临床研究设计和分析方法专门培训的人也很难跟上。这些创新涵盖了试验设计和分析多个方面的变化,包括框架(如平台试验)、执行(如适应性试验、实用性试验)、统计分析(如贝叶斯方法)等,甚至有的还挑战了随机试验的根本--意向治疗分析。

2023年欧洲脑卒中组织大会上,这些变化得到了很好的诠释。在短短90分钟的时间里,会上介绍的每项试验要么采用了完全不同的设计,要么来自截然不同的学派。有人介绍了采用贝叶斯自适应设计并进行中期分析的试验、阶梯式楔形集群随机试验、非劣效分析、交叉设计,其中最夸张的,可能是一项试验放弃了任何统计假设检验,参会者只看到了效应值和置信区间,却没有得到如何在临床上解释该结果的指导。在随后出版的《NEJM》中,该试验的目的被描述为估计效应值的精确程度,并明确指出没有测试优效性或非劣效性[2]。

关于期刊推出的新系列

在接下来的几个月中,《Stroke》期刊将发表 4 篇论文,介绍临床试验设计方面的一些重大进展,包括适应性设计、贝叶斯方法、平台试验和非劣效性试验。这些文章旨在说明试验设计和方法的创新如何提高试验的效率、扩大代表性和适用性,并解决试验开展过程中的一些实际挑战。

目前已发表了两篇文章:适应性设计和贝叶斯方法,感兴趣的小伙伴,可在附件中直接下载。