BMJ方法学重磅指南:在医学研究中如何更加合理处理连续性变量和非线性关联(一)

牛治平

牛治平

复旦大学公共卫生学院

擅长:流行病与卫生统计、大型公开队列数据挖掘、空气污染等环境暴露评估、新现化合物暴露健康效应分析、系统综述和Meta分析
已关注
关注
2025-08-15 来源:医咖会

【2025年8月8日更新:值医咖会9周年之际,赶快去医咖会APP限时领取基础会员权益,含28张基础课程券,各种科研课程随心看】

在医学研究中,连续变量(如年龄、血压、生物标志物浓度等)无处不在。然而,许多研究者在处理这些变量时,常常采用简单分类(如二分化)或假设线性关系的方法。这些方法虽然简单,但往往会导致信息丢失、统计功效下降,甚至得出错误的结论

针对此类问题,四大顶级期刊中BMJ于2025年7月发表了一篇题为“Dealing with continuous variables and modelling non-linear associations in healthcare data: practical guide.”文章,展示简单分类或假设线性关系的方法在处理连续性变量中的弊端,并介绍更加合理的处理连续性变量和拟合非线性模型的方法

链接:https://www.bmj.com/content/390/bmj-2024-082440

为了方便广大医学研究者学习,我们将通过两篇文章分别介绍传统的处理连续性变量存在的问题、更加合理的处理连续性变量和拟合非线性模型的方法。

连续变量的常见处理方法及其问题

在医疗研究中,连续变量通常需要进行分析,但许多研究者选择将其分类处理,例如将年龄分为“<60岁”和“≥60岁”两组,或者假设变量与结果之间存在线性关系。然而,这些方法存在诸多问题:

  • 信息丢失:分类处理会丢失大量信息,尤其是二分化处理,会导致最大的信息损失。例如,将年龄分为两组,会忽略组内个体之间的差异。
  • 统计功效下降:分类处理会降低统计功效,导致预测模型性能下降。例如,假设线性关系时,如果真实关系是非线性的,模型的预测能力会显著下降。
  • 人为断点:分类处理假设在某个特定点(如中位数)前后变量的影响截然不同,这在生物学上往往没有依据。
  • 残差混杂:分类处理会导致残差混杂,影响模型的解释能力。例如,将连续变量分类后,模型可能无法准确捕捉变量之间的复杂关系。

案例研究:脑脊液葡萄糖与细菌性脑膜炎

为了更直观地展示这些方法的弊端,本研究使用了一个公开的脑脊液葡萄糖(CSF glucose)与细菌性脑膜炎的案例研究。研究目标是通过脑脊液葡萄糖水平预测细菌性脑膜炎的发生。

  • 数据集:包含501例急性脑膜炎患者的脑脊液葡萄糖水平、年龄、性别和脑脊液白细胞计数等信息。
  • 建模方法:研究尝试了三种不同的建模方法:
  • 线性模型:假设脑脊液葡萄糖与脑膜炎之间的关系是线性的。
  • 分类模型:将脑脊液葡萄糖水平分为两组(<62 mg/dL 和 ≥62 mg/dL)。
  • 非线性模型:使用限制立方样条(RCS)来捕捉非线性关系

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈