以《内科学年鉴》一篇最新文献为例,谈一谈观察性研究的缺陷
2023年5月9日,《内科学年鉴》发表了一项大型回顾性研究的结果[1],数据来自美国退伍军人管理局(VHA),参与者是从VHA接受治疗的退伍军人。
研究比较了胰高血糖素样肽-1受体激动剂(GLP1RA;n=28759)vs. 二肽基肽酶-4抑制剂(DPP4i;n=28628)、钠葡萄糖共转运蛋白2抑制剂(SGLT2i;n=21200)vs. DPP4i(n=21170)用于心血管疾病一级预防的效果,研究结局是主要不良心血管事件(MACE)和心衰住院。
研究发现,使用GLP1RA与MACE或心衰风险降低相关(调整后HR,0.82;95%CI 0.72-0.94),但SGLT2i没有显示出类似的效果(aHR,0.91;95%CI 0.78-1.08)。
链接:
https://www.acpjournals.org/doi/10.7326/M22-2751
这项研究的同期述评[2]指出,该观察性研究存在诸多局限性,在解释结果时必须考虑到。了解这些局限性,可以帮助我们更深入了解如何合理利用观察性研究。
链接:https://www.acpjournals.org/doi/10.7326/M23-0958
随访时间问题
该研究的作者也指出,最突出的问题是随访时间短。在GLP1RA与DPP4i的对比中,中位随访时间为0.58年(7个月),而SGLT2i的随访时间为0.42年(5个月)。
这些药物本身需要长期治疗,并非短期干预,所以仅观察它们几个月的效果没有临床意义。GLP1RA和SGLT2i都在大型长期随机安慰剂对照试验(RCTs)中得到广泛研究,在这些试验中,可以看到前6-12个月时MACE的Kaplan-Meier曲线没有分离。鉴于随访时间短,SGLT2i组与DPP4i组的差异未达到统计学显著性,不应直接解释为SGLT2i对一级预防无效。
数据缺失问题
像许多观察性研究一样,本研究在分析中依靠医疗记录中的数据建立倾向性匹配队列,然而,存在着大量的数据缺失。心衰住院是其中一个关键的研究结局,而基线心功能是这个结局的一个重要风险因素。然而,大约78%的患者缺少心室功能的一个关键指标:射血分数。此外,三分之一的患者缺少微量或大量白蛋白尿数据,而这是MACE的一个重要风险因素。
在临床实践中,医生会让对某些患者测量射血分数或尿白蛋白-肌酐比值,例如患者有症状或体征提示心衰或MACE风险高。因此,这些数据缺失通常不是随机的,大量的缺失数据会使观察性研究的结果出现偏倚。
结局事件收集不充分
在该研究中,对结局数据的收集不完整也是一个问题。美国退伍军人管理局(VHA)的患者同时会到其他医疗机构寻求治疗。MACE的两个关键组成即心肌梗死和卒中,是医疗紧急事件,发生急性事件的患者会被送到最近的医疗机构。因此,许多急性事件不会被记录到VHA的医疗记录中。
与RCT不同的是,观察性研究不会对MACE结局采取中心化判定,也不会主动从治疗中心收集结局数据。该研究显示高风险人群的结局事件发生率非常低,每年心肌梗死或卒中的发生率不到1%,可能就是结局事件收集不充分所致。
大样本量就能消除偏倚吗?
现在描述观察性研究时,会被强调为“真实世界证据”,这可能会过分强调这种研究的价值。一个常见的误解是,大样本量会在某种程度上纠正观察性研究固有的缺陷。然而,大样本量并不能消除与数据缺失或结局事件不完整相关的偏倚。鉴于上述局限性,该研究关于药物疗效的对比,还无法得出可靠的结论。
总之,大型观察性研究是有价值的,但必须仔细考虑结局事件的选择和研究方法,并在合理的范围内解释结果。尤其当效应值不大时,应该保持谨慎和怀疑的态度。
参考文献:
1. Ann Intern Med. 2023 May 9. doi: 10.7326/M22-2751.
2. Ann Intern Med. 2023 May 9. doi: 10.7326/M23-0958.
