
本文整理自2026年3月5日发表在《JAMA》上的一篇文章,原文标题为“The Hochberg Procedure for the Comparison of Multiple End Points”。
在临床研究中,通常需要对治疗组与对照组的多个结局或终点进行比较。相比单一终点,对多个终点分析能更全面地评估疗效,但也伴随着风险。
如果一种疗法实际并没有临床益处,那么每增加一个终点的比较,就多了一次因为随机误差而产生“获益假象”的可能,这在统计学上被称为I类错误(Type I error)[1]。
随着终点数量的增加,出现至少一个“假阳性”的累计概率就会变得过高。为了避免这种情况,当研究涉及多个终点时,通常需要采用更严格的统计标准,以控制得出假阳性结论的风险[1,2]。
2025年Anker等在JAMA期刊发表了FAIR-HF2试验的结果[3],该研究旨在观察静脉补铁对伴有铁缺乏的收缩性心衰患者发病率和死亡率的影响。在该试验中,研究者设置了3个主要终点(与心血管死亡和心衰住院相关)。为了确保这3个终点的评估不会产生过多的假阳性风险,作者采用了Hochberg法进行校正[2-4]。
为什么要使用Hochberg法?
在证明疗效更优的临床试验中,如果只检测单一终点,通常会计算一个P值。如果 P值低于预设的阈值(通常单侧检验为0.025,双侧检验为0.05),研究则宣称治疗有效。在实际治疗无效的情况下,这套流程可将误判有效的风险(假阳性)控制在2.5%以内(假设单侧检验)。
然而,当检测多个终点时,如果对每个终点都沿用上述标准,那么每次 2.5% 的误判风险就会不断累积。
举个例子:如果某种疗法实际上完全无效,而研究同时检测8个互不相关的终点,那么在8个结论中至少出现1个“假阳性”结论的概率将飙升至约18%。
为了降低这种风险,我们需要使用“多重性校正(Multiplicity corrections)”。这些方法通过为每一次比较设置更严苛的门槛,确保即使进行了多次对比,在所有终点中出现一个假阳性结论的总概率,依然维持在预设的限制之内(例如2.5%)。
在探讨多个终点时,这种“至少在一个终点上犯错”的概率被称为族系错误率(Family-wise error rate, FWER)。这里的“族系(Family)”指的是一组终点对比或假设检验[5]。
最广为人知的多重性校正方法是Bonferroni校正,其做法非常简单粗暴:将显著性阈值(如0.025)直接除以检测的终点数量K,即新的阈值= 0.025/K[1,2,6]。
虽然Bonferroni校正能严格控制族系错误率,但也被认为过于保守[6]。如果一种疗法确实具有临床疗效,过于保守的校正方法会降低统计效能。也就是说,由于门槛设得太高,我们可能会错失发现获益的机会,导致研究出现“假阴性”。
为了解决这个问题,研究者开发了其他的多重性校正方法。这些方法在确保控制总错误率的前提下,通过对一部分比较采用稍宽松的准则,获得更高的统计效能,增加检测出真实疗效的机会,Hochberg法就是这样一种校正方案[2,4,7]。
Hochberg法具体是如何操作的?
在Hochberg法中,每个终点首先独立进行分析,然后将得到的P值按从大到小的顺序排列。该方法从最大的P值开始,逐一进行:
1、检查最大的P值
如果最大的P值小于或等于总体的显著性水平(例如单侧0.025),那么该终点以及后面P值更小的终点,都被视为具有统计学显著性。
2、如果第一步不显著,评估第二个P值
如果最大的P值没有达到标准,则转为评估第二大P值。此时,对比的阈值会变得更严苛,即用原始阈值除以2(例如0.025/2=0.0125)。如果这个P值小于该阈值,那么该终点以及剩余P值更小的终点都视为显著。
3、以此类推
如果第二大P值仍不显著,则将第三大P值和原始阈值除以3(例如0.025/3=0.0083)进行比较。这个过程一直持续到某个P值达到对应的标准,或者所有P值都评估完毕。
其核心逻辑在于:只要在任何一步得到了显著的结果,那么该结果以及排位更靠后(即P值更小)的终点,全部判定为显著。


确认删除