什么是多元方差分析,python 方差计算函数
主页
特别纵队
大蟒
文章详细信息
0
统计多元方差分析
快乐黄蜂10分钟前上映了。
1.前言
前面讲了简单的单向方差分析。在本文中,我们将讨论双向方差分析和多因素方差分析。双向方差分析是最简单的多因素方差分析。
单变量分析是指只有一个因素会影响要比较的均值,而多变量分析是指很多因素会影响均值。
需要注意的是,一个因子可能有不同的级别,即不同的值。比如判断某种药物对某种疾病是否有效果,服用不同剂量的效果应该是不一样的。虽然因素都是吃药,但是不同的药量代表不同的水平。
双因素(多因素)方差分析分为两种,一种是交互型,一种是非交互型。你什么意思?什么是互动?
比如我们都知道,牛奶和药不能一起吃。如果单独喝牛奶,有助于补充身体的蛋白质。如果单独吃药,有助于治疗疾病,但同时吃牛奶和药,会抵消两者的作用。这种两者之间的互动可以理解为互动。当然,有时互动是积极的,有时是消极的。
2.无交互作用的方差分析
现在像下一张不同品牌不同地区的产品销量数据表,我想看看不同品牌不同地区的这两个因素对销量的影响是否显著:
我们先来看看在没有交互作用的情况下,如何做双因素方差分析。所谓无交互,就是品牌和区域之间没有交互,互不影响,只单独影响销量。
在前面的单因素方差分析中,我们用F值来检验显著性,多因素方差分析也用F值。
F=组间方差/组内方差。
没有交互作用的多因素可以简单理解为多个单因素。也就是你可以单独看品牌对销量的影响,再单独看地域对销量的影响。
一个人呢?这又回到了我们之前谈到的单向方差分析。
让我们首先计算一组品牌的平方和:
SSA=(每个品牌的平均值-所有销售额的平均值)2 *每个品牌中的样本数量
=(344.20-328.45)^2*5 (347.80-328.45)^2*5 (337.00-328.45)^2*5 (284.80-328.45)^2*5
=13004.55
让我们计算区域组的平方和:
SSB=(每个地区的平均值-所有销售额的平均值)2 *每个地区的样本数
=(339.00-328.45)^2*4 (330.25-328.45)^2*4 (339.25-328.45)^2*4 (318.25-328.45)^2*4
=2011.7
然后让我们计算所有平方的和:
SST=(每个值-总体平均值)2
=17888.95
除此之外,还有一个平方和:
SSE=SST-SSA-SSB
这部分是由品牌和区域之外的其他因素造成的,称为随机误差的平方和。
有了平方和,我们还需要求均方差,均方差=平方和/自由度。
SST的自由度=总水平1=19
SSA的自由度=品牌的级别1=3
SSB的自由度=区域级别1=4
SSE的自由度=SSA的自由度*SSB的自由度=12
有了平方和和自由度,就可以算出均方差MS,然后算出最重要的f值。
品牌因子的f值=SSA/SSE
区域因素的f值=SSB/SSE
最后通过查F值表可以得到置信度为95%时的F边界值表,然后与实际F值进行比较,最后做出是否显著的判断。下表:
3.交互作用方差分析
某交通部门想知道高峰时间和路段是否会对汽车行驶时间产生影响。通过人工收集,获得以下数据:
这种分析需要考虑高峰时段和路段之间的相互影响,某些路段的高峰行驶时间可能会异常偏高或偏低。
类似于没有交互作用的多元方差分析的过程,我们首先计算峰值周期的平方和:
SSA=(每个高峰期的平均值-总体平均值)2 *每个高峰期的样本数
=(23.2-20.25)^2*10 (17.3-20.25)^2*10
=174.05
然后计算路段的平方和:
SSB=(各路段平均值-总体平均值)2 *各路段样本数
=(22.4-20.25)^2*10 (18.1-20.25)^2*10
=92.45
然后计算相互作用的平方和:
SSAB=(各路段高峰期平均值-该路段平均值-该高峰期平均值)2 *各区间样本数
=(25.4-23.2-22.4 20.25)^2*5 (21-23.2-18.1 20.25)^2*5 (19.4-17.3-22.4 20.25)^2*5 (15.2-17.3-18.1 20.25)^2*5
=0.05
然后计算所有平方的总和:
SST=(每个值-总体平均值)2
=329.75
最后,计算误差的平方和:
SSE=SST-SSA-SSB-SSAB
SST的自由度=样本总数1=19
SSA的自由度=高峰期1=1
SSB的自由度=路段数量1=1
SSAB的自由度=SSA的自由度*SSB的自由度=1
SSE自由度=SST自由度SSA自由度SSB自由度SSAB自由度
求均方差后查F表,可以得到下表:
4.方差分析和回归分析的异同
以有交互作用和无交互作用的两因素方差分析为例,为大家演示多因素方差分析中涉及的计算过程。在实际工作中,我们不需要手动计算,而是可以通过Excel和Python直接计算。解释将来如何实现该工具。
通过以上多因素方差分析,我们可以得到不同因素对某一目标值的影响(销量/行驶时间等。).你可能会有这样的疑问。这和多元回归有什么区别?多元回归不也是要找到多个x和一个y的关系吗?那两个是一样的吗?
还是有一些区别的。方差分析只是告诉你某个因素的影响是否显著,并没有告诉你影响有多大。回归分析告诉你具体影响有多大。方差分析是定性分析,解决的是有无的问题;回归分析是解决多少问题的定量分析。
Mysql机器学习数据库网络爬虫
9阅读10分钟前发表。
募捐
分享
本作品为原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议。
平滑雨的数据分析之路
微信官方账号:《顺利的雨的数据分析之路》,分享数据分析相关内容。
焦点栏
快乐的黄蜂
微信官方账号:《顺利的雨的数据分析之路》,分享数据分析相关内容。
1声望
0粉丝
注意作者
0条评论
投票时间
提交评论
快乐的黄蜂
微信官方账号:《顺利的雨的数据分析之路》,分享数据分析相关内容。
1声望
0粉丝
注意作者
宣传栏
1.前言
前面讲了简单的单向方差分析。在本文中,我们将讨论双向方差分析和多因素方差分析。双向方差分析是最简单的多因素方差分析。
单变量分析是指只有一个因素会影响要比较的均值,而多变量分析是指很多因素会影响均值。
需要注意的是,一个因子可能有不同的级别,即不同的值。比如判断某种药物对某种疾病是否有效果,服用不同剂量的效果应该是不一样的。虽然因素都是吃药,但是不同的药量代表不同的水平。
双因素(多因素)方差分析分为两种,一种是交互型,一种是非交互型。你什么意思?什么是互动?
比如我们都知道,牛奶和药不能一起吃。如果单独喝牛奶,有助于补充身体的蛋白质。如果单独吃药,有助于治疗疾病,但同时吃牛奶和药,会抵消两者的作用。这种两者之间的互动可以理解为互动。当然,有时互动是积极的,有时是消极的。
2.无交互作用的方差分析
现在像下一张不同品牌不同地区的产品销量数据表,我想看看不同品牌不同地区的这两个因素对销量的影响是否显著:
我们先来看看在没有交互作用的情况下,如何做双因素方差分析。所谓无交互,就是品牌和区域之间没有交互,互不影响,只单独影响销量。
在前面的单因素方差分析中,我们用F值来检验显著性,多因素方差分析也用F值。
F=组间方差/组内方差。
没有交互作用的多因素可以简单理解为多个单因素。也就是你可以单独看品牌对销量的影响,再单独看地域对销量的影响。
一个人呢?这又回到了我们之前谈到的单向方差分析。
让我们首先计算一组品牌的平方和:
SSA=(每个品牌的平均值-所有销售额的平均值)2 *每个品牌中的样本数量
=(344.20-328.45)^2*5 (347.80-328.45)^2*5 (337.00-328.45)^2*5 (284.80-328.45)^2*5
=13004.55
让我们计算区域组的平方和:
SSB=(每个地区的平均值-所有销售额的平均值)2 *每个地区的样本数
=(339.00-328.45)^2*4 (330.25-328.45)^2*4 (339.25-328.45)^2*4 (318.25-328.45)^2*4
=2011.7
然后让我们计算所有平方的和:
SST=(每个值-总体平均值)2
=17888.95
除此之外,还有一个平方和:
SSE=SST-SSA-SSB
这部分是由品牌和区域之外的其他因素造成的,称为随机误差的平方和。
有了平方和,我们还需要求均方差,均方差=平方和/自由度。
SST的自由度=总水平1=19
SSA的自由度=品牌的级别1=3
SSB的自由度=区域级别1=4
SSE的自由度=SSA的自由度*SSB的自由度=12
有了平方和和自由度,就可以算出均方差MS,然后算出最重要的f值。
品牌因子的f值=SSA/SSE
区域因素的f值=SSB/SSE
最后通过查F值表可以得到置信度为95%时的F边界值表,然后与实际F值进行比较,最后做出是否显著的判断。下表:
3.交互作用方差分析
某交通部门想知道高峰时间和路段是否会对汽车行驶时间产生影响。通过人工收集,获得以下数据:
这种分析需要考虑高峰时段和路段之间的相互影响,某些路段的高峰行驶时间可能会异常偏高或偏低。
类似于没有交互作用的多元方差分析的过程,我们首先计算峰值周期的平方和:
SSA=(每个高峰期的平均值-总体平均值)2 *每个高峰期的样本数
=(23.2-20.25)^2*10 (17.3-20.25)^2*10
=174.05
然后计算路段的平方和:
SSB=(各路段平均值-总体平均值)2 *各路段样本数
=(22.4-20.25)^2*10 (18.1-20.25)^2*10
=92.45
然后计算相互作用的平方和:
SSAB=(各路段高峰期平均值-该路段平均值-该高峰期总体平均值)2 *各区间样本数
=(25.4-23.2-22.4 20.25)^2*5 (21-23.2-18.1 20.25)^2*5 (19.4-17.3-22.4 20.25)^2*5 (15.2-17.3-18.1 20.25)^2*5
=0.05
然后计算所有平方的总和:
SST=(每个值-总体平均值)2
=329.75
最后,计算误差的平方和:
SSE=SST-SSA-SSB-SSAB
SST的自由度=样本总数1=19
SSA的自由度=高峰期1=1
SSB的自由度=路段数量1=1
SSAB的自由度=SSA的自由度*SSB的自由度=1
SSE自由度=SST自由度SSA自由度SSB自由度SSAB自由度
求均方差后查F表,可以得到下表:
4.方差分析和回归分析的异同
以有交互作用和无交互作用的两因素方差分析为例,为大家演示多因素方差分析中涉及的计算过程。在实际工作中,我们不需要手动计算,直接通过Excel和Python就可以计算出来。解释将来如何实现该工具。
通过以上多因素方差分析,我们可以得到不同因素对某一目标值的影响(销量/行驶时间等。).你可能会有这样的疑问。这和多元回归有什么区别?多元回归不也是要找到多个x和一个y的关系吗?那两个是一样的吗?
还是有一些区别的。方差分析只是告诉你某个因素的影响是否显著,并没有告诉你影响有多大。回归分析告诉你具体影响有多大。方差分析是定性分析,解决的是有无的问题;回归分析是解决多少问题的定量分析。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。