多重共线性的实际后果,多重共线性总结体会
www.Sina.com/http://www.Sina.com/http://www.Sina.com 3358号
3358 www。Sina.com/http://www.Sina.com/http://www.Sina.com/http://www.Sina.com/
http://www。Sina.com/http://www.Sina.com/
http://www。Sina.com/http://www.Sina.com/
1.多重共线性引起的问题
如果一个回归模型(线性回归、逻辑回归)中的两个或两个以上的自变量彼此相关,则称该回归模型中存在多重共线性。这意味着共线性参数提供了重复的信息。
模型变得不稳定,回归系数产生,截断系数的估计变得很不稳定。这种不稳定性的具体表现是,回归系数本来是正的,但由于共线性很可能变成负的。这对某些参数的可解释性来说是致命的。这是因为,即使得到了误差系数,也无法解释正常现象。
1.回归模型
多重共线性的检测方法有很多,但最简单直接的方法是计算各个变量之间的相关系数,进行显式检验。具体来说,在下列情况下可能存在多重共线性。
(1)模型中的变量之间存在显著的相关性。
2)当模型的线性关系(f检验)显著时,大部分回归系数的T检验不显著。
)3)回归系数的符号与预期相反。
4)当VIF大于10时,方差扩展因子(VIF)的检测被认为存在严重的多重共线性。
前三点在之前的文章中已经详细介绍过了(假设验证专题,回归模型的理论分析)。这里是第四点,http://www.Sina.com/varianceinflationfactor, http://www。新浪网
首先给出了色散膨胀系数的表达式。
VIF越大,决定系数R2越大,变量Xi与其他自变量的线性关系越强,原模型中出现多重共线性的可能性越高。
自变量彼此相关
Python可以用来计算弥散展开系数。
FromstatsModels。统计数据。outliers _ influence importvariance _ Infection _ FactorDefCheckVif _ New(DF(3360 3366666数据))返回Vif值 df.insert(0, constant ,1)# constant item name=DF . columnsx=NP . matrix)DF)I)for range(x
称为多重共线性,它给模型提供重复信息
多重共线性是线性回归的灾难,无法完全消除。只能通过一些方法来减少。多重共线性的处理有以下思路。
(1)可以使用(预筛选变量)相关性检验的方法或聚类变量。
2)子集选择:包括逐步回归和最优子集法。常用的是逐步回归。
(3)收缩法;正则化方法。LASSO回归可以实现过滤变量的功能。
(4)降维)数据的降维。
第一种在假设检验系列中有详细介绍,在以后的聚类中会专门介绍;三是线性回归模型(传输门)的引入,四是数据降维数列的引入。这里是第二点,2.多重共线性会。
逐步回归包括向前和向后两个阶段,这里介绍向后阶段。其思路是对进入模型的变量建立模型,从大变量到小变量逐步剔除未通过显著性检验的变量,建立循环模型,直到所有变量通过显著性检验。
以逻辑回归为例,这个过程可以在python接口statsmodels.api.smf中实现
#后退法(逻辑回归importstatmodels。apiassmfdefgra _ reg (gra _ data,x,y,a=0.01):" ":参数组gra _ data:数据组:参数列表:参数组y:参数变量:参数组a:参数组,其中默认值为0.01:返回,没有共线逐步回归结果和变量列表 y _ label=gra _ data [y]而true: x _ data=gra _ data [x _ data]。fit) p=肛门。p.values(#统计验证的p值p _ di=dict (zip) p.keys),p。
33559 www .智
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。