构建临床预测模型的步骤详解

10天前来源：医咖会

本文整理自《Journal of Hepatology》（IF=25.7）的一篇综述，原文标题为“Developing and validating clinical prediction models in hepatology – An overview for clinicians”[1]，详细拆解了开发和验证临床预测模型的步骤。小咖将拆成几篇推文进行介绍，希望能为你的研究提供一些帮助。

该综述介绍了开发和验证临床预测模型的9个步骤，目的是将预测模型应用于临床实践：

1. 确定是否需要新的预测模型

2. 确定模型的目的和预期用途

3. 评估你希望用于开发模型的数据的质量和数量

4. 使用合理的统计方法开发模型

5. 按概率尺度（0-100%）生成风险预测

6. 评估模型在区分度、校准度和临床实用性方面的表现

7. 使用拔靴法（bootstrapping）验证模型，以纠正性能的明显乐观性

8. 用外部数据集验证模型，以评估模型的通用性和可移植性

9. 发布模型，以便他人应用或验证

案例和数据集

为了详解开发和验证临床预测模型的步骤，本文使用梅奥诊所的原发性胆汁性胆管炎（PBC）数据集，该数据集虽然已经过时，但是可公开获取。本文使用的数据和所有代码，可以通过以下链接获取：

https://github.com/rickstra/PBCexample

1974年至1984年间，共有312名PBC患者参加了一项随机对照试验，为了本文的目的，将忽略具体的治疗方法，将两个治疗组合并为一个治疗组，本文的建模示例是一个诊断模型，因此试验指定的治疗方法并不重要。

数据集中记录的变量见表1。简便起见，我们使用预测均值匹配的单一插补法对缺失值进行处理后，将数据集视为完整数据。然而，在实际操作中，应改用多重插补[2]。

本文先介绍前两个步骤：

1、检索文献并考虑是否需要新的预测模型

在着手开发新的临床预测模型之前，我们必须确定是否需要该模型。如果模型已经存在，尤其是已经在临床上使用或得到指南的推荐，可以考虑用我们自己的数据去验证该模型或对其进行重新校准[3]。

终末期肝病模型（MELD）评分就是一个更新模型的例子，其最初是用于预测经颈静脉肝内门腔静脉分流术（TIPS）患者的3个月存活率。随后有研究者对其进行了修改，以预测所有终末期肝硬化患者的存活率。随着时间的推移，该模型已经更新了两次：一次是将血清钠水平纳入模型中，另一次是纳入了性别和血清白蛋白。每次更新都是在更大的数据集上进行了训练。