
原文出处:BMJ 2026;393:e087812(doi: 10.1136/bmj-2025-087812)
2026年6月2日,BMJ发表了一篇方法学文章,阐述了在分析常规收集数据时出现的重要挑战,并提供了应对策略。同时文章还提供了一份路线图,帮助研究者在分析常规收集的数据时得到更可靠的结果。
基于常规收集数据的研究所使用的数据集,并非为研究目的而收集,例如电子健康档案、医保数据、登记数据,或来自可穿戴设备和APP的信息。
使用“常规收集数据(routinely collected data)”这一术语,而不用广为认知的“真实世界数据”和“真实世界证据”,是因为后者已经存在了大量互不一致的定义。“真实世界”一词被用于各种各样的研究设计,为避免将数据来源与研究设计混为一谈,使用“常规收集数据”这一术语,它更准确地指向数据的来源,而不是暗示某种特定研究类型。
常规收集数据对于数据分析的三项常见场景都有价值:
1) 描述:某一群体具有哪些特征,它们之间如何关联
2) 解释:某项干预如何影响结局
3) 预测:能多么精确地预测未来事件,或对当前的健康状态作出诊断
计算能力的进步和AI领域的飞速发展,增添了自动化分析的吸引力,让数据驱动、个体化医学似乎触手可及。然而,如果缺乏研究设计、数据收集和数据分析方面的专业知识,对大量数据胡乱套用AI算法可能弊大于利。
“拥有一些数据,加上对答案的迫切渴望,并不能保证从一组给定的数据中就能提取出一个合理的答案。”
——John Tukey
常规收集数据,在数据收集的时间和成本方面具有显著优势,但在合适的分析与结果解读方面却充满了挑战。当数据是为研究目的而前瞻性收集时,研究设计可以与研究目标相匹配:通过招募能够保证样本具有代表性的参与者,并预先设定标准化流程来测量所有相关变量。
常规收集数据通常是为了非研究目的而收集的,例如行政管理或临床记录,不涉及额外的前瞻性数据收集。因此,研究者对于纳入分析的患者选择、所测量变量的选择,以及这些变量在何时、以何种方式被测量,几乎没有控制权。此外,治疗通常不是随机分配的,作出治疗决策的原因可能未被记录,通常无法实施盲法,而各项测量(包括结局的测量)通常没有标准化,而是反映了日常临床决策的结果。
代表性与外推性问题
使用常规收集数据的研究,其纳排标准通常由数据的可及性所决定,或至少受其限制。尽管我们期望常规收集的数据能够通过提供“真实世界”条件下的证据,来最大限度地保证代表性和外推性,但这些数据往往是在特定环境下收集的,例如大学附属医院中参加医保的患者,存在代表性不足或代表性偏差的问题。
多中心研究中,不同中心的患者特征和疾病发生情况就可能存在很大差异。即便常规收集的数据包含了来自目标人群的代表性样本,但识别患者往往很困难,因为数据本身缺乏用于确立纳入和排除标准的信息,这可能迫使研究者改变能够用这些数据回答的研究问题。
当研究目的是解释时(即某项干预如何影响结局),一个对目标人群不具代表性的数据集,可能会损害外部效度并影响结果的外推性。当治疗效应修饰因子的分布在现有数据集和目标人群之间存在差异时,这一点尤其突出。
正如Griffith等所指出的,将分析限制在已经住院的患者中,可能会削弱、放大或逆转任何与住院相关变量之间的关联。在预测方面,基于疾病发生率较高的常规收集数据所开发的模型,可能因高估风险而表现出较差的校准度。此外,对于在数据中代表性不足或存在代表性偏差的群体,预测表现可能很差,这有可能加剧现有的健康不平等问题。
应对代表性与外推性问题
为评估样本的代表性,可以使用人群数据来比较人口学变量和临床变量的分布情况。对于多中心研究,报告不同中心之间患者特征和结局的差异情况非常重要。由单一中心数据库得出的研究结果,可能需要在更广泛的样本中进行验证,以确保结果在不同人群和医疗环境中均成立;同时也应有不同的匹配和加权方法可用于改善代表性。
对于预测模型,在实际应用场景中评估模型表现至关重要。预测模型永远不能被视为已经被完全“验证”过的。在这个意义上,要使用具有临床价值的预测模型,需要相应的基础设施和人员来进行维护、持续监测模型的表现,并在出现分布漂移时重新训练模型。对于常规收集数据而言,每当记录方式、诊断、治疗选择或诊疗指南随时间或在不同中心之间发生变化时,分布漂移往往就会出现。
值得注意的是,在评估预测模型时,不能只评估其整体预测表现,还必须评估其临床效用,包括对那些在常规收集数据中可能存在代表性偏差或代表性不足的不同亚组的净获益。净获益通过用真阳性的加权频率减去假阳性的加权频率,来量化某个模型在支持特定治疗决策方面的临床效用。这里的权重反映了假阴性与假阳性的相对重要性,用以体现使用该模型辅助临床决策所带来的后果。净获益通常会与其他替代策略进行比较,包括竞争性模型,以及“全部治疗”或“全部不治疗”这两种默认策略。
数据质量问题
由于常规收集数据并非为回答某一特定研究问题而记录的,许多相关变量可能记录不充分或不一致。因此,理解数据的收集过程至关重要。记录工作可能在不同的临床环境、不同中心之间以及随时间发生变化,这或许还取决于激励机制以及收集数据的人员的工作负荷。这就造成了缺失数据和虚假关联的高风险,这源于一些结构性问题,例如各中心之间记录做法的差异、测量只针对特定患者群体(例如疾病严重程度较高者)进行,或是上述两种因素的共同作用。因此,将存在缺失值的患者排除在外,可能导致选择偏倚。
举例来说,在紧急的临床情境下,记录那些与即时患者诊疗无关的临床测量值,优先级理所当然会很低。此时临床医生可能会将非强制填写的字段留空,从而产生缺失数据。而对于强制填写的字段,临床医生可能会随意填入一个允许范围内的数值,从而导致严重的测量误差。
数据收集和报告通常也不是标准化的。当来自不同中心的患者被纳入同一项研究时,有些中心可能使用先进的成像技术、使用高灵敏度的检测试剂盒,并具有较高的编码准确性,而另一些中心则可能使用较为基础的成像技术、使用灵敏度较低的检测试剂盒,并且编码准确性较低。
图1展示了不同中心之间在代表性、记录模式和医疗质量上的差异如何导致结果失真。


确认删除