数据库搭建(EDC)

统计分析服务

提问

登录 / 注册

BMJ方法学重磅指南：在医学研究中如何更加合理处理连续性变量和非线性关联（一）

牛治平

复旦大学公共卫生学院

擅长：流行病与卫生统计、大型公开队列数据挖掘、空气污染等环境暴露评估、新现化合物暴露健康效应分析、系统综述和Meta分析

已关注

关注

个人主页

2025-08-15 来源：医咖会

【2025年8月8日更新：值医咖会9周年之际，赶快去医咖会APP限时领取基础会员权益，含28张基础课程券，各种科研课程随心看】

在医学研究中，连续变量（如年龄、血压、生物标志物浓度等）无处不在。然而，许多研究者在处理这些变量时，常常采用简单分类（如二分化）或假设线性关系的方法。这些方法虽然简单，但往往会导致信息丢失、统计功效下降，甚至得出错误的结论。

针对此类问题，四大顶级期刊中BMJ于2025年7月发表了一篇题为“Dealing with continuous variables and modelling non-linear associations in healthcare data: practical guide.”文章，展示简单分类或假设线性关系的方法在处理连续性变量中的弊端，并介绍更加合理的处理连续性变量和拟合非线性模型的方法。

链接：https://www.bmj.com/content/390/bmj-2024-082440

为了方便广大医学研究者学习，我们将通过两篇文章分别介绍传统的处理连续性变量存在的问题、更加合理的处理连续性变量和拟合非线性模型的方法。

连续变量的常见处理方法及其问题

在医疗研究中，连续变量通常需要进行分析，但许多研究者选择将其分类处理，例如将年龄分为“<60岁”和“≥60岁”两组，或者假设变量与结果之间存在线性关系。然而，这些方法存在诸多问题：

信息丢失：分类处理会丢失大量信息，尤其是二分化处理，会导致最大的信息损失。例如，将年龄分为两组，会忽略组内个体之间的差异。
统计功效下降：分类处理会降低统计功效，导致预测模型性能下降。例如，假设线性关系时，如果真实关系是非线性的，模型的预测能力会显著下降。
人为断点：分类处理假设在某个特定点（如中位数）前后变量的影响截然不同，这在生物学上往往没有依据。
残差混杂：分类处理会导致残差混杂，影响模型的解释能力。例如，将连续变量分类后，模型可能无法准确捕捉变量之间的复杂关系。

案例研究：脑脊液葡萄糖与细菌性脑膜炎

为了更直观地展示这些方法的弊端，本研究使用了一个公开的脑脊液葡萄糖（CSF glucose）与细菌性脑膜炎的案例研究。研究目标是通过脑脊液葡萄糖水平预测细菌性脑膜炎的发生。

数据集：包含501例急性脑膜炎患者的脑脊液葡萄糖水平、年龄、性别和脑脊液白细胞计数等信息。
建模方法：研究尝试了三种不同的建模方法：
线性模型：假设脑脊液葡萄糖与脑膜炎之间的关系是线性的。
分类模型：将脑脊液葡萄糖水平分为两组（<62 mg/dL 和 ≥62 mg/dL）。
非线性模型：使用限制立方样条（RCS）来捕捉非线性关系

评论

请先登录后再发表评论

发表评论

推荐课程

【图文+视频】文献管理软件EndNote操作教程

【图文+视频】文献管理软件EndNote操作教程

【视频】基金申请与标书撰写入门课

【视频】基金申请与标书撰写入门课

【图文】多因素回归及变量筛选

【图文】多因素回归及变量筛选

【图文】手把手教你PASS计算样本量

【图文】手把手教你PASS计算样本量

确认

取消

确认

取消

APP下载领课程券

扫码下载APP

领基础课程券

公众号

统计咨询

扫一扫添加小咖个人微信，立即咨询统计分析服务！