【急求解答】回归分析中,如何选择将连续变量转变成分类变量的界值?
多重线性回归,收入(连续变量)作为自变量,由于直接纳入β意义不大,故打算转变为分类变量,请问该如何选择将其分组的界值呢?
如图,家庭人均月收入,对其转化为分类变量,做了以下几种尝试:
1)思路一:为分组后人数相差不大,选择百分位数(3000;4000;5000)作为界值,结果见“收入分组4/5”,其中分组5各组人数差异相对小——但问题是,感觉此类分组的实际意义相对欠缺,因为>5000元组内部其实收入高低差别较大,个人认为,这样的分组对实际收入对于因变量的影响体现不佳
2)思路二:为体现实际收入差异带来的因变量变化,凭个人感觉选择4000/8000进行了分组,见“收入分组2/3”,个人认为,这样可能更能体现收入差异带来的影响(收入变化4000元),但问题是各组人数差异较大,担心是否会影响回归分析的结果?
请问:
【问题一】这种情况是如何选择界值的呢?
【问题二】“收入分组2/3”是否合理?若合理,是否选择组间人数差异小的方式?以及是否因组间人数差别较大会影响回归分析结果的准确性?
感谢:)