新冠肺炎应急状态下临床试验的设计-统计师的思考

专题合集更多教程

内容来自:“ 小凡生统月谈”微信公众号,感谢授权!

作者:蒋志伟

 

本文的主要内容包括:

1. 临床研究的时效性

2. 研究终点的选择

3. 临床研究设计方法

1)是否可以考虑采用单臂设计

2)是否可以使用不同地区的临床数据进行非随机对照

3)样本量如何确定

4)是否可以以及有必要进行期中分析

5)是否适用于创新性的新型设计方法

4. 最后的分享:采用Remdesiver仿制药进行社区干预试验的设计。

 

正文部分的精彩内容来自于蒋同学。与此同时,在审稿的过程中,我们有一些有趣的讨论。此外,这两天我也看了一些关于埃博拉(Ebola)临床试验设计的文献,和蒋同学的很多讨论点也有相对应的地方,所以想借此与大家分享。在不影响蒋同学正文内容和征得蒋同学同意的前提下,我会通过对话框的形式分享这部分内容。                                

 

首先,需要声明的几点是:①以下思考和讨论仅基于我们个人目前为止对疾病和疫情的认识,随着事件的发展和认识的加深,我们后面也会有新的理解和思考;且受个人能力和水平限制,对于以下可能存在的问题,欢迎各位一起参与讨论。②以下内容所涉及的临床试验仅基于以注册为目的的临床研究,由研究者发起的临床研究不在以下讨论的范畴。③以下仅为技术层面的讨论。

 

临床研究的时效性

 

之所以把这个问题放在第一个,是因为它在突发公共卫生事件下显得尤为重要,也是下面我们无论选择临床终点还是研究设计方法都需要去重点考虑的点。虽然在平时由于商业考虑,申办方也会非常注意临床研究的时效性,但是毕竟那还不是“要命”的事。而在这一突发公共卫生事件下,它却是在和病毒和疫情赛跑。

 

除了从流行病学角度防控疾病的三大手段(控制传染源、切断传播途径和保护易感者),疫苗和药物是我们寄希望于战胜疫情的两大武器。但是疫苗研发会有一定的滞后性,从认识这一病毒到研发出疫苗,再到疫苗的临床研究,即使我们的科学家争分夺秒,夜以继日,也需要一个过程和时间。

 

从历史上来看,2003年的非典疫苗不少在完成1期临床试验后由于疫情的结束而终止;2009年的甲流疫苗虽然成功在国内上市,但也只是赶上了甲流爆发的小尾巴;去年美国默沙东公司埃博拉疫苗的上市也是在西非埃博拉疫情结束之后。因此,在与疫情的赛跑中,疫苗的临床研究可能只会在后半程中才加入,通过疫苗预防来控制疫情的时效性不足。但是疫苗的研发仍然也非常重要,因此我们不知道这次疫情什么时间结束,更不知道它是否如非典最终“抛弃”我们。

 

当然,在短时间内研发出一个专门治疗2019-nCoV的特效药物也同样是很难的,最快速的是在已上市药物中筛选出有效治疗2019-nCoV的药物(如克力芝等抗艾滋药物),或从正在研发的其它适应症药物中找到可能有效的药物(如瑞德西韦),这也是现在正在如火如荼正在做的事情。

 

但无论采用何种方式,在与病毒和疫情的赛跑中,时间都变得尤为重要;特别是对于后一种方式而言,在疫情过程中通过科学有效的临床研究数据获得药物的尽快批准上市,以尽快应对战胜疫情,是我们此时临床研究的主要目的;如果一项临床研究时间较长,可能在疫情结束或快要结束时方才结束临床研究,它也许从产品的临床研发的角度是有意义的,但是从突发公共卫生事件应对疫情的角度意义反而就没那么大了。因此,时效性是我们在设计此类临床试验中需要考虑的重要因素

 

正如蒋同学所谈到的,突然公共卫生事件下,临床试验的时效性是极重要的问题。根据参考文献1,在埃博拉流行中(2013-2015),埃博拉病例超过26,000例,但埃博拉病毒感染(EVD)患者的临床开发进展甚微。

 

即使在 2014 年 8 月世卫组织宣布该流行病为"国际关注的公共卫生紧急情况"之后,研究和研究资助社区在西非动员和实施临床试验方面都相对缓慢。下图一体现了埃博拉临床研究的滞后性。因为这种滞后性,很多试验在入组患者上出现了问题,结合其它原因,并未完成试验。相对于产生于临床资源贫乏的环境中的埃博拉时间,面对新冠肺炎,我国应急战略的制定以及临床试验的迅速开始到目前为止是成功的。

 

y 轴显示WHO对利比里亚、塞拉利昂和几内亚每周埃博拉病确诊例数的估计值,次生 y 轴显示累积的临床试验数目

 

参考文献:Ebola Clinical Trials: Five Lessons Learned and A Way Forward. N.M Thielman et.al. Clin Trials. 2016 February ; 13(1): 83–86. doi:10.1177/1740774515619897.

 

研究终点的选择

 

这一问题虽然不是一个统计学问题,但是对我们整个临床试验设计至关重要。临床终点的选择取决于临床医学的建议,在这里我主要是想谈一下替代终点的考虑,以及研究终点与受试者的临床获益。首先,我们先看一下新型冠状病毒感染的肺炎诊疗方案(试行第五版)中的疾病临床分型

 

            a.轻    型:临床症状轻微,影像学未见肺炎表现。

 

            b.普通型:发热、呼吸道等症状,影像学可见肺炎表现的。

 

            c.重    型:符合下列任何一条:①呼吸窘迫,RR≥30次/分;②静息状态下,指氧饱和度≤93%;③动脉血氧分压(PaO2)/ 吸氧浓度(FiO2)≤300mmHg。

 
            d.危重型:符合下列任何一条:①出现呼吸衰竭,且需要机械通气;②出现休克;③合并其他器官功能衰竭需ICU 监护治疗。
 

对于不同临床分型的病人,对治疗效果会有不同的预期。对于重型和危重型病人,降低病人的死亡率是最主要的目的;对于普通型病人,主要希望通过有效的治疗减少转化为重症肺炎的比例,进而降低疾病的死亡率,提高疾病的治愈率,缩短住院天数;而对于轻型病人,由于症状较轻,病人本身的治愈率会相对较高,那么通过更有效的治疗药物缩短病人的住院天数就可能是我们的主要目标。

 

但是,以重型和危重型病人为例,如果在平时,通过28天观察病人的死亡情况是非常容易接受的事情,很难接受再选择更早期的有效性终点来替代死亡率终点;但在突发公共卫生事件的紧急状况下,与疫情的赛跑会迫使我们考虑选择一个更早期的有效性终点作为死亡率的替代终点,以加快临床试验的进程。

 

例如瑞德西韦所采用TTCR(Time to Clinical Recovery, 临床恢复时间)可以视为一个替代终点,它是通过对病人的体温、呼吸频率、氧饱和度等临床症状的改善来评价药物的疗效,而对于药物抗病毒结果以及重型病人的存活状态未在主要终点中纳入;其它指标,如血氧指数、重型病人的机械通气等也会被考虑是否可以作为替代终点以早期评价药物的疗效,但这一选择则依赖于临床医学的意见和决定。

 
当然,在紧急状态下采用替代终点来加快临床试验的进程,以使药物可以尽早惠及于疫情中的病人,是我们可以接受的,但是对于“金标准”终点,如死亡率降低,也是从科学性上我们希望最终看到的。

 

瑞德西韦的两项临床试验(详细的试验设计可查看:两项瑞德西韦治疗新冠肺炎的临床试验启动,来看试验方案!)中采用的主要终点均为生存终点(time-to-event endpoint), 分别为:

 

            1.轻中症:到临床恢复时间(TTCR),定义为从开始治疗(Remdesivir或安慰剂)到发热、呼吸频率、血氧饱和度转为正常和咳嗽缓解,持续至少72小时。观察窗为28天,即到随访28天未出现临床恢复的患者会被删失。

 

            2.重症:到临床改善的时间(TTCI),定义是从开始研究治疗到入院状态从临床状态的六类序数等级(从1(出院)到6(死亡))下降至少两级所经历的时间(天)。观察窗亦为28天。

 

六类序数表:

 

6.死亡;5.重症监护病房,需要ECMO和/或IMV;4.重症监护病房/住院治疗,需要NIV / HFNC治疗;3.住院,需要补充氧气(但不需要NIV / HFNC);2.住院治疗,不需要补充氧气;1.出院。

 

关于这两个终点,有几个问题一直困扰我,下午和蒋同学的讨论有所启发。虽然是停留在讨论阶段,也借此把我们的讨论分享给大家,希望抛砖引玉。

 

(1)“为什么使用生存终点形式(类似于至缓解时间)而不是二项终点形式(类似于客观缓解率),比如我们也可以以28天内达到临床恢复/临床改善患者的比率为终点。难道在新冠肺炎中,时间是一个很重要的因素吗?”

 

蒋同学:“TTCR/TTCI其实也是新的终点,是替代终点(如果我们认为出院率,死亡率是“金标准”终点)。TTCR/TTCI作为终点存在不确定性,但相对于同样框架下的二项终点,样本量会小。”

 

(2)“对于中症患者,我们除了关心尽快让他们恢复,不也应同时关心重症转化率是否降低吗?为什么不考虑重症转发率作为另一主要终点?”

 

蒋同学:“这个我们有考虑过,样本量还是一个考虑方面。目前,新冠肺炎中症至重症的转化率在20%左右,如果一个药物特别好,把重症转化率降低到了10%,我们算下来依然需要四五百人。当然,从我个人角度,我也觉得重症转化率是一个非常重要的指标。”

 

(3)“对于重症患者, TTCI有一个问题,那就是如果患者死亡或者是其它等级爬升的恶化是会被删失的。这合理吗?如果一个药物在重症患者中能降低以上定义的临床改善的时间,却对死亡率和危重率没有任何降低,怎么能被认为有效呢?”

 

蒋同学:“的确,目前死亡率是次要疗效终点(在重症的试验中)。但我相信,如果一个药物在重症患者中不能降低死亡率和危重率,甚至死亡率更差(这不太可能,因为毕竟是add-on设计),也很难获得临床认可或者获批。”

 

题外话,这两天我也通过ClinicalTrials.gov看了下埃博拉治疗性药物的临床试验设计。主要药物(Zmapp; Convalescent Plasma)的临床试验亦采用随机设计,考虑到埃博拉的高死亡率(重症为70%,总体为30-40%),这两项试验的主要终点均为死亡率。新冠肺炎目前死亡率为2%, 终点考虑上更多的参考了FDA关于流感药物开发的建议。

 

临床研究设计方法

 

随机对照试验是我们进行临床试验设计最先会考虑的设计方法,特别是对于非肿瘤的确证性临床试验而言。但是在疫情不断发展的情况下,我们是否有其它更好的选择,或者在哪些方面进行改进呢?我把最近遇到的一些问题汇总如下,供大家一起讨论:

 

问题1:是否可以考虑采用单臂设计?

 

我最初对单臂设计的思路是持反对意见的。同肿瘤试验相比,呼吸类疾病并没有那么agreesive, 基本没有在确证性临床研究中采用单臂设计来证明药物有效性的。但是在疫情发展的紧急状况下,特别是对于重型和危重病人而言,即使采用add-on治疗(即在标准治疗基础上加上研究药物治疗),如果前期能够看到药物的疗效,对一名濒临死亡的病人仍然进行随机给药,可能在伦理学存在很大的风险,因此在重型和危重型病人中采用单臂设计在当前状况下未尝不是一个选择

 

但进行单臂设计,其中一个问题是历史对照的选择。这是我们在其它肿瘤试验中从未遇到过的问题,因为没有文献,没有任何可靠的历史数据,只有每天官方公布的发病和死亡数据;而且随着一版又一版治疗指南的发布,治疗方法的不断探索,治疗疗效在疫情发展过程中也是不断的提高,因此,即使在方案设计中选择的历史对照,在试验进行时就已经落伍了

 
基于这些考虑,我们在进行单臂试验的同时,可以同时收集一部分历史数据和同期外部的临床数据,辅以对单臂试验结果进行对照比较。当然,随机对照设计在可行的情况下还是最佳的选择。
 

问题2:是否可以使用不同地区的临床数据进行非随机对照?

 

从现在公开的数据来看,武汉地区、湖北其他地区和湖北以外其他省份的死亡率存在比较大的差异,地区因素可能是试验中一个比较大的混杂。如果A地区使用试验组,B地区使用对照组的非随机对照试验,地区混杂很可能会掩盖或者夸大试验药物的疗效。单臂试验的外部对照最好也可以使用同一地区治疗水平相当的医院,或者同一医院的不同病区,尽量减小混杂因素的影响。

 

问题3:样本量如何确定?

 

这类试验样本量估计可能会遇到前所未有的问题,没有任何历史数据,临床对疾病的认识尚未明确,同样对药物的疗效预期也尚不确定,但是突发公共卫生事件却不允许有进行探索性临床研究的时间。此外,诊疗手段的快速变化使疾病的治疗效果不断变化,即使已知的历史对照数据,对即将开展临床试验的参考价值也需要考虑。因此,我们在这里更难准确估算试验的样本量,更大程度上是通过对药物疗效的探索性评价来期望获得药物在特殊情况下的“有条件”上市批准。

 

另一方面,在突发公共卫生事件的紧急情况下,是否可以通过“降低把握度”或“增大1类错误率”的方法减小试验需要的样本量,以尽快完成临床试验呢首先,通过降低把握度来减小样本量是由申办方来承担的风险,不会对试验结论的科学性到来太多问题,在紧急状况下降低把握度从统计学上并非不能接受的问题,但从仍保证试验一定的把握度考虑,它还是不能降太低。

 

而第二种方法“增大1类错误率”,则需要考虑问题是:在紧急状况下是否可以接受获得阳性结果的药物,或者说批准上市的药物存在高于单侧2.5%的假阳性错误率?当然,在疫情紧急的情况下,药物安全的前提下,可能大多数人都可以接受一个药物假阳性的概率高于2.5%,因为毕竟目前为止,尚没有发现任何针对这一疾病的特效药物。但是,可以接受1类错误率增大到多少程度?单侧5%?单侧7.5%?这可能就不是从我们角度可以讨论清楚的问题了。

 

问题4:是否可以、有必要进行期中分析?

 

期中分析从理论层面是可以进行的,在缺乏前期疗效探索数据的情况下,如果可以通过期中分析尽早发现无效的药物,并提前终止试验,是非常好的选择。但是从操作层面来讲,在疫情爆发过程中,各个医疗机构有大量的病人,试验应可以在很短的时间内完成入组,因此,当纳入期中分析的受试者完成入组和主要疗效终点随访(假设采用首次用药后14天或28天的主要疗效终点,如TTCR,未发生目标改善的数据会删失在28天),整个试验非常有可能已经完成了所有受试者入组,通过期中分析节约样本量并没有实际可操作性;此外,实施期中分析所有耗费的时间也是需要考虑的一个因素。时间是计划期中分析时必须考虑的。但从另一个角度来看,即使在紧急状态下,对于尚未上市的药物,通过IDMC对药物的安全性进行实时监测仍然是需要的,甚至是更有必要的。

 

问题5:是否可以进行其它的适应性或新型设计方法

 

在临床研究中,如果发现试验药物的有效性,我们都会希望它在试验中可以救治更多的病人,此时response adaptive randomization(基于疗效的适应性随机)是统计师首先想到的方法,但同时我们也需要考虑它的可操作性。

 

首先,adaptive randomization所基于的主要终点的分析时间点?如果如上文,希望采用首次用药后14天或28天的主要终点进行疗效分析和后续的adaptive randomization,而试验此时已经完成了所有入组,那么这里的所涉及的response adaptive randomization是没有实际意义的。也就是,response adaptive randomization必须基于更早期疗效终点。

 

其次,我们是否有足够的时间设计和实施response adaptive randomization以满足紧急状态下试验启动的时间计划例如,若采用RPW (Randomized Play-the-Winner)方法进行adaptive randomization,我们会需要进行一系列simulation对RPW不同参数的选择提供依据,是否有足够的时间来做这件事和进行决策?

 

另一方面,从实施层面,我们会希望采用IRT系统对受试者进行实时的response adaptive,那么我们是否有及时可利用的系统?这一系统是否能够完全满足我们的需求?系统配置、UAT测试以及上线是否满足试验启动的时间表? 这些都是从操作层面需要考虑的问题。

 
最后,response adaptive randomization方法对统计分析亦带来的挑战,它是否能够给出无偏的统计推断,这一直是response adaptive randomization方法学研究中经常被讨论的问题,也是限制其应用的原因之一。

 

其它一些方法,诸如贝叶斯(Bayes)方法,是我们面对希望通过小样本量获得结论时经常会想到的统计方法。但是,这些方法如何立即用于实际临床研究,是否需要进一步的文献研究,是否需要进一步的统计模拟探索,紧急状态下是否允许我们有这些时间去做这些事情?临床研究者是否可以很快的理解这些设计方法?这些是实际操作过程中需要考虑的因素,更是对临床研究参与者,尤其是统计师,知识储备和经验的挑战。

 

在上文提到的参考文献"Ebola Clinical Trials: Five Lessons Learned and A Way Forward“中谈到了在高死亡率、动态性疫情下,从伦理上和效率上考虑,应该考虑采用平台式设计(platform trail design)。当然,新冠肺炎的死亡率并没有埃博拉那么高,因此正如蒋同学已经谈到的,目前的两项瑞德西韦随机临床试验在伦理上是可接受的

 

此外,正如蒋同学已经谈到的,平台设计可能会因为操作(包括IRT,数据管理,IDMC等)和数据分析的复杂性而牺牲临床试验的时效性;另一方面,平台试验也要求非常集中的公共卫生研究资源调配和协调,而在目前我们的公卫和监管专家们已经日以继夜工作依然资源紧缺的情形下,缺乏可操作性。

 

最后的分享

 

总的来讲,突发公共卫生事件紧急状态下试验设计的挑战主要来源于两个方面:时间的紧迫和对新发疾病的未知。在写这篇文章的两天中,夏结来教授给出了一个国产瑞德西韦进行社区干预性试验的设计,在此与大家分享。

 

采用Remdesiver仿制药进行社区干预试验

 

鉴于新冠病毒的疫苗研究尚待时日,建议采用抗病毒药物做社区预防,尤其在武汉及周边高危社区或在方舱隔离区域展开临床研究。以发病率为主要疗效指标。

 

  1. 密切接触者发病率预计在千分之二
  2. 干预组剂量:入组后3天采用治疗剂量,以后半量维持到入组后第14天。中途发病者收治后恢复到治疗剂量。
  3. 对照组:安慰剂
  4. 随访一个月
     

基于密切接触者发病率为0.002,假定预防干预的保护率为70%,α=0.05,检验效能80%,按照干预组和安慰剂组1:1分配受试者,计需观察到16例新冠感染事件。预计每组入组6000例,合计12000例受试者。

 

<ps:在收到夏教授的信息时,建议可使用stepped wedge design方法(不熟悉这一设计的朋友请见下方知识点),每名受试者都可以接受到试验药治疗,会更加伦理,不过操作上会稍有复杂。另外,诸位暂不要纠结是否有瑞德西韦仿制药的问题,可能很快就有的>

 

知识点:

 

Stepped wedge design是一种进行群随机(cluster randomized)对照的交叉设计方法。设计示意图见下。它只允许进行单向交叉。所有的群组在研究开始时均在对照组接受基线测量,而在接下来不同的时间点,各群组开始启动试验组治疗。在各时间点可以有不同的群组由对照组转向试验组研究,但是某一个群组开始启动试验组治疗的时间点需要进行随机化。Stepped wedge design在社区干预类试验和卫生政策类研究中比较常见,最早的案例是1980年底在冈比亚进行的肝炎干预性研究

 

在最后的最后,我们希望这场疫情早日结束,新冠病毒如非典一样永远“抛弃”我们不再复返。我经常开玩笑地和一些朋友说,统计学的发展都是源于人们的“欲望”。人们想在试验过程中看看结果,统计学家搞出来了成组序贯设计和期中分析的理论方法;人们又想在试验中间基于信息做一些调整,adaptive design的概念和理论体系应运而生;再到现在的篮子,伞和平台试验……这次事件的发生后,又会有什么新的、更好的统计设计和方法提出呢?现在还不得而知,但是终归会有一些的吧!那样未来的下一次战“疫”,统计师们会更从容一些,虽然每一个人都希望这一次战“疫”就是最后一次。

 

作者简介 

 

蒋志伟,统计师一名,毕业于第四军医大学,师从夏结来教授。先后在济南军区总医院(现960医院)和默沙东从事统计工作,现是北京康特瑞科公司负责人。

 

生物统计兴趣点:group sequential design & interim analysis; adaptive design method; propensity score; Bayesian methods on surrogate endpoint; Multi-Regional Clincial Trial (MRCT) design

 

最近在做的有意思的事:push to apply innovative designs from onco tonon-onco trials

 

个人微信号:jiangzhiw

扫码关注“医咖会”公众号,及时获取最新重磅研究

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题