【2025年8月8日更新:值医咖会9周年之际,赶快去医咖会APP限时领取基础会员权益,含28张基础课程券,各种科研课程随心看】
在医学研究中,连续变量(如年龄、血压、生物标志物浓度等)无处不在。然而,许多研究者在处理这些变量时,常常采用简单分类(如二分化)或假设线性关系的方法。这些方法虽然简单,但往往会导致信息丢失、统计功效下降,甚至得出错误的结论。
针对此类问题,四大顶级期刊中BMJ于2025年7月发表了一篇题为“Dealing with continuous variables and modelling non-linear associations in healthcare data: practical guide.”文章,展示简单分类或假设线性关系的方法在处理连续性变量中的弊端,并介绍更加合理的处理连续性变量和拟合非线性模型的方法。
链接:https://www.bmj.com/content/390/bmj-2024-082440
为了方便广大医学研究者学习,我们将通过两篇文章分别介绍传统的处理连续性变量存在的问题、更加合理的处理连续性变量和拟合非线性模型的方法。
连续变量的常见处理方法及其问题
在医疗研究中,连续变量通常需要进行分析,但许多研究者选择将其分类处理,例如将年龄分为“<60岁”和“≥60岁”两组,或者假设变量与结果之间存在线性关系。然而,这些方法存在诸多问题:
- 信息丢失:分类处理会丢失大量信息,尤其是二分化处理,会导致最大的信息损失。例如,将年龄分为两组,会忽略组内个体之间的差异。
- 统计功效下降:分类处理会降低统计功效,导致预测模型性能下降。例如,假设线性关系时,如果真实关系是非线性的,模型的预测能力会显著下降。
- 人为断点:分类处理假设在某个特定点(如中位数)前后变量的影响截然不同,这在生物学上往往没有依据。
- 残差混杂:分类处理会导致残差混杂,影响模型的解释能力。例如,将连续变量分类后,模型可能无法准确捕捉变量之间的复杂关系。
案例研究:脑脊液葡萄糖与细菌性脑膜炎
为了更直观地展示这些方法的弊端,本研究使用了一个公开的脑脊液葡萄糖(CSF glucose)与细菌性脑膜炎的案例研究。研究目标是通过脑脊液葡萄糖水平预测细菌性脑膜炎的发生。
- 数据集:包含501例急性脑膜炎患者的脑脊液葡萄糖水平、年龄、性别和脑脊液白细胞计数等信息。
- 建模方法:研究尝试了三种不同的建模方法:
- 线性模型:假设脑脊液葡萄糖与脑膜炎之间的关系是线性的。
- 分类模型:将脑脊液葡萄糖水平分为两组(<62 mg/dL 和 ≥62 mg/dL)。
- 非线性模型:使用限制立方样条(RCS)来捕捉非线性关系


确认删除