相关分析中5个常见的困惑,这些问题困扰过你吗?

2021-04-14 来源:小白学统计

问题1:相关与回归,我该选择哪个?

相关与回归都是分析变量间关系的方法,但不少人搞不清楚,我到底什么时候用相关,什么时候用回归。这个其实主要从研究目的来定,这两种方法侧重的研究目的不同。

相关(correlation)从字面意思就可以看出它描绘的是变量间的“相互”关系,即两个或多个变量不区分主次关系,重在解释变量间的关联。

而回归分析中的变量地位不同,有主次之分,注意力集中在其中的一个或几个自变量对因变量的影响,而不是因变量对自变量的影响。

在有的结构很清楚的软件中,如JMP软件,是将相关置于“多元分析”的菜单下,为什么呢?因为相关分析中,所有变量都是结果,没有原因,就是看这些变量之间的相互关系。

而回归分析则不是,只有一个结果,其它都是原因(注意这里的原因不是从时间上或因果关系上所谓的那个原因,只是为了说明问题,不是很严谨)。比如分析高血压的影响因素,高血压可以看做结果,而性别、年龄等因素可以看做原因。因为你想看的是性别、年龄等对高血压的影响,而不想反过来看高血压对年龄的影响。这就是回归分析。

问题2:没有线性相关就说明没有关系?

一般而言,我们所说的相关都是指线性相关,但这只是一般情况,而不是所有情况。比如,Pearson相关系数(主要用于正态分布数据之间的相关)和Spearman相关系数(主要用于非正态分布的数据之间的相关),这两个相关系数主要是用于线性相关的关联性度量,但是如果相关系数=0.1,并不代表说就没有相关。此时结论只能说无“线性相关”,但不能说没有“相关性”。

因为变量之间不仅是线性相关,也可能是曲线相关,变量之间的关系不一定是直线关系,更多的可能是曲线的关系。事实上,现实中有很多现象都不是线性的,而是非线性的。比如下图就是非线性的相关:

对于非线性的相关,如果还用Pearson相关,肯定是得不出想要的结果的,此时需要考虑曲线相关。

如何看变量间到底是线性相关还是曲线相关,最简单的方法就是通过绘制散点图来看 。如果散点图大致呈直线,那就是线性相关,如果呈指数形状、抛物线形状等,则最好先将变量进行变换,如对数变换、指数变换、平方、平方根变换等。将变换后的数据再进行直线相关分析。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈