回归中的多变量、多因素、多重、多元有什么区别?

专题合集更多教程
内容来自:“小白学统计”微信公众号,感谢作者授权。

 

在回归分析中,经常看到多变量回归、多因素分析、多重线性回归、多元logistic回归等诸如此类的名词。这些所谓的多变量、多因素、多重、多元,是否一回事?很多初学者都会比较迷惑,本文主要对此做一阐述。

 

回归分析中,主要就是因变量和自变量,大多数的回归模型的形都是如下所示:

 

因变量(或因变量的变换)=截距+回归系数*自变量(可以是多个自变量)

 

它反映了1个或多个自变量是如何影响因变量的。

 

因此,关于多变量、多因素、多重、多元,也就是如何对应因变量和自变量

 

为了简单起见,下面都以线性回归为例来说明,其它如logistic回归、Poisson回归等都一样。

 

(1)简单(simple)线性回归

 

简单线性回归模型(simple linear regression model)是指1个因变量、1个自变量的模型,如下:

 

(2)多因素(multivariable)或多重(multiple)线性回归

 

 
多变量线性回归或多重线性回归(multivariable or multiple linear regression)是一回事,是相对简单线性回归而言。简单线性回归只有1个自变量,多因素线性回归或多重线性回归则是有多个自变量。但它们都是只有1个因变,模型如下:
 

 

(3)多元或多变量(multivariate)线性回归

 

多元或多变量线性回归模型(multivariate linear regression model)是指多个因变量的回归模型。

 

大家可以再对比一下多元方差分析和多因素方差分析。

 

多元方差分析或多变量方差分析,它们都是什么意思呢?主要适用于像重复测量数据这种情况,在重复测量数据中,每个人测量了多次,有多个结局变量(因变量),因此是多元方差分析。

 

多因素方差分析主要用于什么情形呢?通常用于有多个分组变量(自变量),如析因设计中至少有2个分组变量,这种情况下,采用的是多因素方差分析。这里的“因素”是指自变量,因此不是多元方差分析。

 

有些分类比较清楚的统计软件,其实分的很清楚,尤其是一些菜单结构的。比如下图是SAS jmp软件的菜单,可以看出,在多元方法的菜单中,不是回归分析,而是主成分分析、因子分析、偏最小二乘回归等方法。

 

 

为什么呢?因为回归分析除非特指,一般我们默认的都是1个因变量,但是自变量可以是1个或多个。而主成分分析、因子分析等这些方法,都是针对多个因变量的(不清楚的可以回去翻翻书),所以是多元方法。

 

在《Multivariate or Multivariable Regression?》(Am J Public Health. 2013; 103(1): 39–40.)这篇文章中,作者分析了30篇声称使用了多元(multivariate)方法的文章,结果发现,其中只有5篇是真正使用了多元(multivariate)方法,主要是纵向数据(即重复测量数据),其余25篇其实是多因素分析(multivariable analyses),主要是logistic回归。有的文章中则是multivariate和multivariable在交互替代使用,把它们当做一回事。

 

由此可见,关于多重、多因素、多元、多变量等这些我们似乎每天都挂在嘴边的名词,其实并不是像我们想象的这么简单。即使在国际期刊,名词混用的也大有人在。

 

希望通过本文介绍,大家以后可以区分这些基本概念,在文章撰写时更加严谨。

 

当然,本文说的主要是医学统计学中的一些区分,或许在有的领域并没有区分这么明显。

 

因为我有一篇文章,提到了多因素分析和多元分析的不同,结果有一位数理统计的老师给我的审稿意见是:在数理统计学中,多元(multivariate)就是多因素(multivariable),不用区分。我个人没有在工科的学校学过,所以非常希望有数理统计老师明确告知,数理统计中,是否真的不区分这两个概念?

 

扫码关注“医咖会”公众号,及时获取最新统计教程!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题