多重共线性的实际后果,多重共线性总结体会

　　www.Sina.com/http://www.Sina.com/http://www.Sina.com 3358号

　　3358 www。Sina.com/http://www.Sina.com/http://www.Sina.com/http://www.Sina.com/

　　http://www。Sina.com/http://www.Sina.com/

　　1.多重共线性引起的问题

　　如果一个回归模型(线性回归、逻辑回归)中的两个或两个以上的自变量彼此相关，则称该回归模型中存在多重共线性。这意味着共线性参数提供了重复的信息。

　　模型变得不稳定，回归系数产生，截断系数的估计变得很不稳定。这种不稳定性的具体表现是，回归系数本来是正的，但由于共线性很可能变成负的。这对某些参数的可解释性来说是致命的。这是因为，即使得到了误差系数，也无法解释正常现象。

　　1.回归模型

　　多重共线性的检测方法有很多，但最简单直接的方法是计算各个变量之间的相关系数，进行显式检验。具体来说，在下列情况下可能存在多重共线性。

　　(1)模型中的变量之间存在显著的相关性。

　　2)当模型的线性关系(f检验)显著时，大部分回归系数的T检验不显著。

　　)3)回归系数的符号与预期相反。

　　4)当VIF大于10时，方差扩展因子(VIF)的检测被认为存在严重的多重共线性。

　　前三点在之前的文章中已经详细介绍过了(假设验证专题，回归模型的理论分析)。这里是第四点，http://www.Sina.com/varianceinflationfactor, http://www。新浪网

　　首先给出了色散膨胀系数的表达式。

　　VIF越大，决定系数R2越大，变量Xi与其他自变量的线性关系越强，原模型中出现多重共线性的可能性越高。

　　自变量彼此相关

　　Python可以用来计算弥散展开系数。

　　FromstatsModels。统计数据。outliers _ influence importvariance _ Infection _ FactorDefCheckVif _ New(DF(3360 3366666数据))返回Vif值 df.insert(0， constant ，1)# constant item name=DF . columnsx=NP . matrix)DF)I)for range(x

　　称为多重共线性，它给模型提供重复信息

　　多重共线性是线性回归的灾难，无法完全消除。只能通过一些方法来减少。多重共线性的处理有以下思路。

　　(1)可以使用(预筛选变量)相关性检验的方法或聚类变量。

　　2)子集选择：包括逐步回归和最优子集法。常用的是逐步回归。

　　(3)收缩法；正则化方法。LASSO回归可以实现过滤变量的功能。

　　(4)降维)数据的降维。

　　第一种在假设检验系列中有详细介绍，在以后的聚类中会专门介绍；三是线性回归模型(传输门)的引入，四是数据降维数列的引入。这里是第二点，2.多重共线性会。

　　逐步回归包括向前和向后两个阶段，这里介绍向后阶段。其思路是对进入模型的变量建立模型，从大变量到小变量逐步剔除未通过显著性检验的变量，建立循环模型，直到所有变量通过显著性检验。

　　以逻辑回归为例，这个过程可以在python接口statsmodels.api.smf中实现

　　#后退法(逻辑回归importstatmodels。apiassmfdefgra _ reg (gra _ data，x，y，a=0.01):" ":参数组gra _ data:数据组：参数列表：参数组y:参数变量：参数组a:参数组，其中默认值为0.01:返回，没有共线逐步回归结果和变量列表 y _ label=gra _ data [y]而true: x _ data=gra _ data [x _ data]。fit) p=肛门。p.values(#统计验证的p值p _ di=dict (zip) p.keys)，p。

　　33559 www .智