岭回归
2017-12-30 来源: 医咖会 作者: 龚志忠

一、问题与数据

在前期推送的有关多重线性回归的内容中,我们讨论了当自变量之间存在多重共线性时,可以采用变量剔除和逐步回归的方法,对自变量进行一定的筛选,从而避免在模型拟合时出现多重共线性的问题。

 

但不管是变量剔除还是逐步回归,往往有时候会出现我们所研究的重点因素被剔除了模型,或者该因素估计的偏回归系数与实际明显相反的情况,此时所得出的结论可靠度也较差。当我们希望能够建立因变量与某个给定自变量的回归模型,但在模型中又出现自变量多重共线性时,应该如何进行处理呢?

 

今天我们讨论处理多重共线性的一种常用方法--岭回归。 

岭回归 

岭回归(Ridge Regression)在1962年首次提出,是采用改进的普通最小二乘法,用于处理自变量多重共线性问题的一种有偏估计回归方法。岭回归放弃了普通最小二乘法的无偏估计,损失了部分信息,因此岭回归方程的R2通常会稍低于普通最小二乘法回归,但其估计的偏回归系数往往更接近真实的情况,从而提高了回归模型的稳定性和可靠性,对于病态数据的修复和拟合,具有较好的效果。

岭参数K值

岭回归的原理较为复杂,简单来说就是通过在正规方程中引入一个有偏常数,通常称为岭参数(K值),从而求得回归估计量。当K=0时即为最小二乘法估计,由于岭回归为有偏估计,K的取值应尽可能小,才能确保更接近于最小二乘法的无偏估计,因此岭回归分析的一个重要问题就是确定岭参数K的最适宜取值。

岭迹分析确定K值

当岭参数K值发生变化时,我们可以将各个自变量的岭迹曲线描绘出来,即对每个自变量绘制出随K值变化而引起岭回归估计值变化的曲线,称作为岭迹图,如图1所示。通过岭迹图分析,根据曲线的变化形状来确定适宜的K值。

 

一般要求当各个自变量的回归系数的岭轨迹基本趋于稳定,用最小二乘法估计时符号不合理的回归系数,其岭估计的符号变得合理,残差平方和增长不太多时,此时对应的K值就是要寻找的最适宜的K值。此外也可以应用方差膨胀因子法,选择的K值使得岭回归估计的所有自变量VIF<10。
目录
共61讲