什么是多元方差分析,python 方差计算函数

  什么是多元方差分析,python 方差计算函数

  主页

  特别纵队

  大蟒

  文章详细信息

  0

  统计多元方差分析

  快乐黄蜂10分钟前上映了。

  1.前言

  前面讲了简单的单向方差分析。在本文中,我们将讨论双向方差分析和多因素方差分析。双向方差分析是最简单的多因素方差分析。

  单变量分析是指只有一个因素会影响要比较的均值,而多变量分析是指很多因素会影响均值。

  需要注意的是,一个因子可能有不同的级别,即不同的值。比如判断某种药物对某种疾病是否有效果,服用不同剂量的效果应该是不一样的。虽然因素都是吃药,但是不同的药量代表不同的水平。

  双因素(多因素)方差分析分为两种,一种是交互型,一种是非交互型。你什么意思?什么是互动?

  比如我们都知道,牛奶和药不能一起吃。如果单独喝牛奶,有助于补充身体的蛋白质。如果单独吃药,有助于治疗疾病,但同时吃牛奶和药,会抵消两者的作用。这种两者之间的互动可以理解为互动。当然,有时互动是积极的,有时是消极的。

  2.无交互作用的方差分析

  现在像下一张不同品牌不同地区的产品销量数据表,我想看看不同品牌不同地区的这两个因素对销量的影响是否显著:

  我们先来看看在没有交互作用的情况下,如何做双因素方差分析。所谓无交互,就是品牌和区域之间没有交互,互不影响,只单独影响销量。

  在前面的单因素方差分析中,我们用F值来检验显著性,多因素方差分析也用F值。

  F=组间方差/组内方差。

  没有交互作用的多因素可以简单理解为多个单因素。也就是你可以单独看品牌对销量的影响,再单独看地域对销量的影响。

  一个人呢?这又回到了我们之前谈到的单向方差分析。

  让我们首先计算一组品牌的平方和:

  SSA=(每个品牌的平均值-所有销售额的平均值)2 *每个品牌中的样本数量

  =(344.20-328.45)^2*5 (347.80-328.45)^2*5 (337.00-328.45)^2*5 (284.80-328.45)^2*5

  =13004.55

  让我们计算区域组的平方和:

  SSB=(每个地区的平均值-所有销售额的平均值)2 *每个地区的样本数

  =(339.00-328.45)^2*4 (330.25-328.45)^2*4 (339.25-328.45)^2*4 (318.25-328.45)^2*4

  =2011.7

  然后让我们计算所有平方的和:

  SST=(每个值-总体平均值)2

  =17888.95

  除此之外,还有一个平方和:

  SSE=SST-SSA-SSB

  这部分是由品牌和区域之外的其他因素造成的,称为随机误差的平方和。

  有了平方和,我们还需要求均方差,均方差=平方和/自由度。

  SST的自由度=总水平1=19

  SSA的自由度=品牌的级别1=3

  SSB的自由度=区域级别1=4

  SSE的自由度=SSA的自由度*SSB的自由度=12

  有了平方和和自由度,就可以算出均方差MS,然后算出最重要的f值。

  品牌因子的f值=SSA/SSE

  区域因素的f值=SSB/SSE

  最后通过查F值表可以得到置信度为95%时的F边界值表,然后与实际F值进行比较,最后做出是否显著的判断。下表:

  3.交互作用方差分析

  某交通部门想知道高峰时间和路段是否会对汽车行驶时间产生影响。通过人工收集,获得以下数据:

  这种分析需要考虑高峰时段和路段之间的相互影响,某些路段的高峰行驶时间可能会异常偏高或偏低。

  类似于没有交互作用的多元方差分析的过程,我们首先计算峰值周期的平方和:

  SSA=(每个高峰期的平均值-总体平均值)2 *每个高峰期的样本数

  =(23.2-20.25)^2*10 (17.3-20.25)^2*10

  =174.05

  然后计算路段的平方和:

  SSB=(各路段平均值-总体平均值)2 *各路段样本数

  =(22.4-20.25)^2*10 (18.1-20.25)^2*10

  =92.45

  然后计算相互作用的平方和:

  SSAB=(各路段高峰期平均值-该路段平均值-该高峰期平均值)2 *各区间样本数

  =(25.4-23.2-22.4 20.25)^2*5 (21-23.2-18.1 20.25)^2*5 (19.4-17.3-22.4 20.25)^2*5 (15.2-17.3-18.1 20.25)^2*5

  =0.05

  然后计算所有平方的总和:

  SST=(每个值-总体平均值)2

  =329.75

  最后,计算误差的平方和:

  SSE=SST-SSA-SSB-SSAB

  SST的自由度=样本总数1=19

  SSA的自由度=高峰期1=1

  SSB的自由度=路段数量1=1

  SSAB的自由度=SSA的自由度*SSB的自由度=1

  SSE自由度=SST自由度SSA自由度SSB自由度SSAB自由度

  求均方差后查F表,可以得到下表:

  4.方差分析和回归分析的异同

  以有交互作用和无交互作用的两因素方差分析为例,为大家演示多因素方差分析中涉及的计算过程。在实际工作中,我们不需要手动计算,而是可以通过Excel和Python直接计算。解释将来如何实现该工具。

  通过以上多因素方差分析,我们可以得到不同因素对某一目标值的影响(销量/行驶时间等。).你可能会有这样的疑问。这和多元回归有什么区别?多元回归不也是要找到多个x和一个y的关系吗?那两个是一样的吗?

  还是有一些区别的。方差分析只是告诉你某个因素的影响是否显著,并没有告诉你影响有多大。回归分析告诉你具体影响有多大。方差分析是定性分析,解决的是有无的问题;回归分析是解决多少问题的定量分析。

  Mysql机器学习数据库网络爬虫

  9阅读10分钟前发表。

  募捐

  分享

  本作品为原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议。

  平滑雨的数据分析之路

  微信官方账号:《顺利的雨的数据分析之路》,分享数据分析相关内容。

  焦点栏

  快乐的黄蜂

  微信官方账号:《顺利的雨的数据分析之路》,分享数据分析相关内容。

  1声望

  0粉丝

  注意作者

  0条评论

  投票时间

  提交评论

  快乐的黄蜂

  微信官方账号:《顺利的雨的数据分析之路》,分享数据分析相关内容。

  1声望

  0粉丝

  注意作者

  宣传栏

  1.前言

  前面讲了简单的单向方差分析。在本文中,我们将讨论双向方差分析和多因素方差分析。双向方差分析是最简单的多因素方差分析。

  单变量分析是指只有一个因素会影响要比较的均值,而多变量分析是指很多因素会影响均值。

  需要注意的是,一个因子可能有不同的级别,即不同的值。比如判断某种药物对某种疾病是否有效果,服用不同剂量的效果应该是不一样的。虽然因素都是吃药,但是不同的药量代表不同的水平。

  双因素(多因素)方差分析分为两种,一种是交互型,一种是非交互型。你什么意思?什么是互动?

  比如我们都知道,牛奶和药不能一起吃。如果单独喝牛奶,有助于补充身体的蛋白质。如果单独吃药,有助于治疗疾病,但同时吃牛奶和药,会抵消两者的作用。这种两者之间的互动可以理解为互动。当然,有时互动是积极的,有时是消极的。

  2.无交互作用的方差分析

  现在像下一张不同品牌不同地区的产品销量数据表,我想看看不同品牌不同地区的这两个因素对销量的影响是否显著:

  我们先来看看在没有交互作用的情况下,如何做双因素方差分析。所谓无交互,就是品牌和区域之间没有交互,互不影响,只单独影响销量。

  在前面的单因素方差分析中,我们用F值来检验显著性,多因素方差分析也用F值。

  F=组间方差/组内方差。

  没有交互作用的多因素可以简单理解为多个单因素。也就是你可以单独看品牌对销量的影响,再单独看地域对销量的影响。

  一个人呢?这又回到了我们之前谈到的单向方差分析。

  让我们首先计算一组品牌的平方和:

  SSA=(每个品牌的平均值-所有销售额的平均值)2 *每个品牌中的样本数量

  =(344.20-328.45)^2*5 (347.80-328.45)^2*5 (337.00-328.45)^2*5 (284.80-328.45)^2*5

  =13004.55

  让我们计算区域组的平方和:

  SSB=(每个地区的平均值-所有销售额的平均值)2 *每个地区的样本数

  =(339.00-328.45)^2*4 (330.25-328.45)^2*4 (339.25-328.45)^2*4 (318.25-328.45)^2*4

  =2011.7

  然后让我们计算所有平方的和:

  SST=(每个值-总体平均值)2

  =17888.95

  除此之外,还有一个平方和:

  SSE=SST-SSA-SSB

  这部分是由品牌和区域之外的其他因素造成的,称为随机误差的平方和。

  有了平方和,我们还需要求均方差,均方差=平方和/自由度。

  SST的自由度=总水平1=19

  SSA的自由度=品牌的级别1=3

  SSB的自由度=区域级别1=4

  SSE的自由度=SSA的自由度*SSB的自由度=12

  有了平方和和自由度,就可以算出均方差MS,然后算出最重要的f值。

  品牌因子的f值=SSA/SSE

  区域因素的f值=SSB/SSE

  最后通过查F值表可以得到置信度为95%时的F边界值表,然后与实际F值进行比较,最后做出是否显著的判断。下表:

  3.交互作用方差分析

  某交通部门想知道高峰时间和路段是否会对汽车行驶时间产生影响。通过人工收集,获得以下数据:

  这种分析需要考虑高峰时段和路段之间的相互影响,某些路段的高峰行驶时间可能会异常偏高或偏低。

  类似于没有交互作用的多元方差分析的过程,我们首先计算峰值周期的平方和:

  SSA=(每个高峰期的平均值-总体平均值)2 *每个高峰期的样本数

  =(23.2-20.25)^2*10 (17.3-20.25)^2*10

  =174.05

  然后计算路段的平方和:

  SSB=(各路段平均值-总体平均值)2 *各路段样本数

  =(22.4-20.25)^2*10 (18.1-20.25)^2*10

  =92.45

  然后计算相互作用的平方和:

  SSAB=(各路段高峰期平均值-该路段平均值-该高峰期总体平均值)2 *各区间样本数

  =(25.4-23.2-22.4 20.25)^2*5 (21-23.2-18.1 20.25)^2*5 (19.4-17.3-22.4 20.25)^2*5 (15.2-17.3-18.1 20.25)^2*5

  =0.05

  然后计算所有平方的总和:

  SST=(每个值-总体平均值)2

  =329.75

  最后,计算误差的平方和:

  SSE=SST-SSA-SSB-SSAB

  SST的自由度=样本总数1=19

  SSA的自由度=高峰期1=1

  SSB的自由度=路段数量1=1

  SSAB的自由度=SSA的自由度*SSB的自由度=1

  SSE自由度=SST自由度SSA自由度SSB自由度SSAB自由度

  求均方差后查F表,可以得到下表:

  4.方差分析和回归分析的异同

  以有交互作用和无交互作用的两因素方差分析为例,为大家演示多因素方差分析中涉及的计算过程。在实际工作中,我们不需要手动计算,直接通过Excel和Python就可以计算出来。解释将来如何实现该工具。

  通过以上多因素方差分析,我们可以得到不同因素对某一目标值的影响(销量/行驶时间等。).你可能会有这样的疑问。这和多元回归有什么区别?多元回归不也是要找到多个x和一个y的关系吗?那两个是一样的吗?

  还是有一些区别的。方差分析只是告诉你某个因素的影响是否显著,并没有告诉你影响有多大。回归分析告诉你具体影响有多大。方差分析是定性分析,解决的是有无的问题;回归分析是解决多少问题的定量分析。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: