如何处理缺失数据？给你支3招！

龚志忠

首都医科大学附属北京中医医院

擅长：临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价

已关注

关注

个人主页

2021-03-16 来源：医咖会

研究实例

某研究人员拟研究针灸疗法对于治疗肩部疼痛的效果，设计了一个随机单盲对照临床试验，一共纳入了52名患有肩袖肌腱炎的运动员，随机分为2组，分别接受针灸治疗和虚拟针灸治疗，治疗共持续4周，研究以基线和治疗后的肩关节评分作为疗效评价指标，最终共有45名研究对象完成了本次临床试验。

在该研究中，有7名（13.5%）研究对象因为各种各样的原因退出了本次临床试验，其中试验组3名，对照组4名，研究人员未能真实地记录到他们治疗后的疗效情况，无法准确评估治疗效果，由于病例脱落而产生了缺失数据。

在临床试验的过程中，病例脱落是非常常见的，而且往往也是不可避免的，缺失数据不仅会降低临床试验统计分析的把握度，而且会给试验结果的评价带来一定的偏倚。那么，为了保证研究结果的稳定性和可靠性，我们今天就来讨论一下，在进行统计分析时，应该如何科学有效的处理这些缺失数据呢？

1、直接剔除法

当脱落病例占总病例数量的比例很小时，而且病例脱落是完全随机发生的，即脱落的原因与临床试验本身无关，例如研究对象因工作出差而退出研究，或搬家而造成失访等，此时可以考虑直接舍弃脱落病例产生的缺失记录，形成一个完全数据集，仅对记录完整的数据进行统计分析（complete case analysis）。

然而，在实际研究中，缺失数据往往占有相当的比重，直接删除缺失数据会丢失大量信息，减少了对原始数据的利用效率，造成资源浪费，特别是当样本量本身很少的时候。此外，盲目删除缺失数据可能导致统计分析结果产生一定的偏倚，当缺失数据和完全观测的数据之间存在系统差异时，会影响研究结论的客观性及正确性，甚至可能会得出错误的结论。

2、单一填补法：LOCF

在临床试验中，研究人员一般会每隔一定的时间对研究对象进行定期随访，直至试验结束。若研究对象在试验期间发生脱落或失访，造成该研究对象在该随访时间点之后，所有的数据均无法观测到，这是临床试验中最常见的一种数据缺失的类型，此时可以尝试采用单一填补法对缺失数据进行填补。

在单一填补法中，末次观测值转结法（Last Observation Carried Forward，LOCF），是临床试验中最常用的一种缺失数据的处理方法。顾名思义，它是利用研究对象脱落或失访前最后一次的观测值来进行填补，之后各时间点的观测值均为缺失前最后一次时间点的观测值。

需要注意的是，在使用LOCF法进行缺失值填补时的一个前提条件是，认为研究对象的情况在脱落或失访后保持不变，或者说不会发生太大的变化，但在实际研究中往往不太现实。

例如图1所示，在研究药物治疗阿尔茨海默病的临床试验中，患者本身的认知功能会随着时间的推移而呈现下降趋势，该研究的目的是为了评价试验药物能否延缓疾病的进程。如果该药物本身与安慰剂相比并无明显差异，但由于试验组患者因为药物引起的不良反应而提前退出试验，那么用LOCF方法就不能真实地反映出试验组患者认知功能随时间变化而不断下降的趋势，反而有可能得出试验药物优于安慰剂药物的错误结论。

在一开始介绍的研究实例中，不管是试验组还是对照组，肩部疼痛本身会随着时间的推移呈现好转的趋势，如果采用LOCF法对缺失数据进行填补，7名脱落患者治疗后被填补的数据即为基线时的数据，此时会认为7名患者治疗前后肩关节评分的改善值为0，从而导致效应指标的变异度减小，标准差下降，可信区间缩小。但由于该研究中试验组和对照组脱落患者的比例较为接近，所以很难界定是高估还是低估试验组的疗效。