python检验多重共线性,python多元线性回归代码
多元线性回归是研究一个连续因变量与几个自变量之间线性关系的统计分析方法。
多元回归的作用:1)确定某一因素是否为因变量
影响因素,以及这个因素对。2)用几个自变量估计因变量的平均水平。
首先,我们来看第一个函数。1.多元线性回归中偏回归系数的影响因素:
偏回归系数是多元线性回归中一个自变量的回归系数。回归的目的之一是确定自变量对因变量有多强,即得到准确的偏回归系数。自变量的偏回归系数的准确性受自变量和因变量相关因素的影响。
比如我们要研究自变量。
变化如何影响因变量?如果模型中不包含其他自变量,则回归模型为:模型(1)
意思是每改变1个单位,平均会改变10个单位。
如果另一个论点
与和相关但不包含在回归模型中的系数将受到影响。如果
,都放入模型中,有:模型(2)
因为,
于是,就有了:
使用
而不是:
式中会合并相似项,回归模型仍由截距项、
项和错误项由三部分组成:
与模型(1)相比,我们可以发现:
可以得到上面的公式:
公式(1)是对的偏回归系数和对的回归系数,两者不相关,但被错误地包含在的系数中。这部分关系通过的引入剥离出来,有助于我们得到正确的偏回归系数。
从公式(1)可以看出,如果
而且其中任何一个都是0,这样即使不包含也不会影响系数。因此,如果你想研究的影响,你应该尽力保证偏回归系数的准确性。在构建模型时,您应该尽可能全面地包括相关变量和相关变量。这就是为什么在解释意义的时候,要强调“控制之后”;如果无关,或者说无关,那么是否控制并不影响权利的效果。各影响因素的确定应遵循这一原则。2、多重共线性(multicollistic)
多重共线性是指线性回归模型中自变量之间存在相关性的现象。
包括完全多重共线性:两个自变量散点图中所有点都落在回归线上,比如一个是身高,一个是身高乘以2。这是一个数据错误,应该删除其中一个变量。
以及不完全多重共线性:两个自变量有一定的相关性,这是正常现象,也是多元线性回归中必须探究的关系。如前所述,
和之间存在不完整的多重共线性。在上面的例子中,包含
除了估计值,还会影响它的方差。计算公式如下:其中n为样本量和与之间的相关系数。
因此,引入具有不完全多重共线性的变量会使
随着增大,偏回归系数的方差增大,进而其置信区间增大,假设检验统计量趋于失去统计显著性。加入现有的
在相关和相关变量之后,系数及其p值的变化可能如下:
多元回归的主要作用之一是确定某一因素是否
影响因素,以及这个因素对。总的来说,影响因素很多,很难通过单一的研究穷尽所有。把他们一个个分了是更好的选择。所以,在研究开始之前,首先要确定我们最关心的自变量是什么;其次要考虑哪些因素既有联系又有关联;接下来的工作如文献查阅、研究、资料整理等都要围绕前两点来进行。3.多元线性回归的思路和步骤:
1)确定因变量和自变量。根据专业知识,结合文献,尽量做到两者兼而有之
相关因素也包括在回归模型中。2)制作因变量和自变量之间,以及每个自变量之间的散点图。
看因变量和自变量之间是否存在线性关系。如果没有,我们应该尝试转换自变量,以实现线性关系。第二,看有没有大的离群值。如果有,先检查数据是否有误;如果数据是正确的,我们来看看是否需要删除异常值(注意对斜率的影响)或者是否需要对因变量进行变换以达到线性关系。这一步要根据你自己的研究目的和专业的统计学老师讨论,并做好记录。看自变量之间是否存在完全共线性。如果存在,请检查数据并移除产生完全多重共线性的变量之一。3)拟合回归模型
假设总体多元线性回归模型为:
可以根据自己的研究需要增减自变量的个数。
通过现有样本数据,使用样本回归系数。
来估计参数。回归线是:
类型,
独立变量的偏回归系数。比如它的含义是,当方程中其他自变量不变时,它变化一个单位,因变量平均变化一个单位。偏回归系数由普通的最小二乘法确定,其原理是使其最小化。有样本残差
为了估计误差项:4)回归方程的假设检验
也就是总体来说回归方程是没有意义的,也不是的影响因素。
其中任何一个或几个不等于0。
计算测试统计数据
当无效假设成立时,
服从自由度p,n-p-1的分布,其中n为样本量,p为自变量个数。5)偏回归系数的假设检验
,即不是y的影响因素。
也就是Y的影响因素.
计算测试统计数据
当零假设成立时,t服从自由度为n-p-1的t分布。6)检验模型假设及其验证方法。
类似于简单的线性回归,我们使用普通的最小二乘法来估计回归模型的参数。得到结果后,模型参数推断是否准确,取决于它在多大程度上满足普通最小二乘法的假设。
假设1:当预测变量值固定时,误差项服从均值为0的正态分布。假设2:因变量与自变量线性相关,不存在大的异常值(异常值和强影响点)。假设3:当预测变量值固定时,误差项的方差相等。假设4:各研究对象相互独立。假设5:自变量之间不存在完全的多重共线性。—————————————————————————————————————————
“正态Q-Q图”是正态分布对应值下标准化残差的概率图。如果满足正常假设,那么图上的点应该落在一条45度角的直线上。以预测值为横轴,对应的残差为纵轴,做出点状图。如果残差的均值为0,方差均匀,那么残差应该在0附近小幅度波动,随机分布,没有趋势。以预测值为横轴,对应的学生残差为纵轴,做出点状图。如果学生残差在-3到3之间,则认为没有大的异常值。此外,应将观察顺序作为横轴,将库克距离作为纵轴。如果库克距离小于4/(n-k-1),则认为是异常值。(样本中是否存在较大的异常值,x和y的线性关系也可以通过步骤2中的散点图来判断)。通常认为随机抽样的对象是相互独立的。多重共线性可以通过统计VIF(方差膨胀因子)来检测。VIF的平方根表示变量回归参数的置信区间可以扩展为独立于模型的预测变量的程度。一般来说,当VIF=1表示一个变量与其他自变量之间不存在多重共线性,1VIF5表示该变量与其他变量之间存在轻度多重共线性,VIF 10表示存在较强的多重共线性问题。在实际研究中,不完全多重共线性是不可避免的,因此应该弄清楚它对结果的影响,这将有助于我们更科学地解释结果。4.多元线性回归的r实现
#变量之间的相关系数(保留3位小数)II。用多个自变量估计因变量的平均水平。多元线性回归的另一个作用是用几个自变量估计因变量的平均水平。当我们通过已有的证据综合确定了因变量的影响因素后,就可以把这些影响因素作为自变量来建立回归方程,估计因变量的平均水平。
1.自变量对因变量影响的比较
因为P个自变量有各自的计量单位和变异程度,所以我们不能直接用回归方程中的偏回归系数来比较每个变量对因变量的影响。可以先把原始数据标准化。
然后用标准化数据拟合回归模型,此时得到的系数就是标准化偏回归系数(其中sum分别是自变量和因变量的标准差,是的共同偏回归系数)。标准偏回归系数越大,自变量对因变量的影响越大,有助于确定哪些自变量是最重要的预测变量。2.选择最佳回归模型。
标准:对因变量变异解释程度高,因变量预测准确率高,相对简单。
调整()用于衡量回归模型对因变量的解释程度。调整越大,回归模型越好,说明回归模型能解释因变量变化的更多部分。
SSE(误差平方和,
)是因变量变异中用残差解释的部分,SST(总平方和,)是因变量的总变异。样本回归模型残差的标准差s用来衡量模型预测的准确性。s越小,精度越高。如果两个模型的上述指标相差不大,则选择较简单的模型(自变量较少)。
3.R中的实现:
#标准化数据zmydata-as . data . frame(scale(my data))#拟合并查看模型zmodel-lm (y ~ 1x2x3,data=zmydata)摘要(zmodel)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。