
一项简单的临床试验通常仅检验单个假设(主要终点),成功与否取决于能否在设定的显著性水平(α)下拒绝零假设(H₀)。然而,现在很多临床试验常需检验多个假设,以验证多个主要终点或不同治疗组相对于对照组的疗效。若主要终点结果具有统计学显著性,研究者可能还会进一步检验若干次要终点的假设。
若设计不够完善,多重假设检验会增加错误判定某个终点结果具有统计学显著性的风险(即假阳性),该风险称为族错误率(FWER)。近期,《NEJM Evidence》发表了一篇综述,旨在帮助研究者们理解常见的多重检验方法。
链接:https://evidence.nejm.org/doi/10.1056/EVIDctw2400393
多重检验的传统方法
表1. 常用多重检验方法概览
Bonferroni校正法
在优效性、非劣效性和等效性试验中,控制多重假设检验族错误率(FWER)的最简单方法是Bonferroni校正法。该方法将显著性水平α平均分配给待检验的各个假设。例如:
- 2个假设(H₁、H₂):α均分为2份(P ≤ 0.025);
- 4个假设:所需P值降至0.0125。
此外,也可将总α(0.05)按不同权重分配给各假设(加权Bonferroni法),只要总和不超过0.05即可。
Bonferroni法是最保守的方法,相较于其他常见方法,其引入Ⅰ类错误(假阳性)的风险最低,但代价是Ⅱ类错误(假阴性)的增加。该方法通常用于评估多剂量或多种干预措施试验的双重主要终点——只要任一比较组在校正后的阈值下显著优于对照组,即可判定试验成功。
Holm法
为了在不增加Ⅰ类错误的前提下提高检验效能,目前已有多种替代方法。Holm法(又称逐步向下法)的操作流程如下:
- 将多重假设检验得到的P值按从小到大排序;
- 对最小P值在α=0.05/m(m为假设总数)的水平下进行检验:若P₁ > 0.05/m → 终止检验(均不显著);若P₁ ≤ 0.05/m → 对次小P值在α=0.05/(m-1)水平下继续检验。
以双终点试验为例:
- 先检验最小P值,阈值α=0.05/2=0.025;
- 若显著,再检验第二小P值,阈值恢复常规α=0.05/1=0.05。
与之相反的Hochberg法则采用逐步向上法,从最大P值开始检验。


确认删除