python单因素方差分析,python多因子模型

  python单因素方差分析,python多因子模型

  这次,我们来学习假设检验中的另一个重要检验——f检验。

  什么是f检验?

  F-test,最常用的别名叫做联合假设检验(英文:Joint Hypothesis Test)。它也被称为方差比检验、健忘柠檬检验和方差分析。这是在(H0)下进行的测试,统计值服从。通常用于分析具有多个参数的统计模型,以确定模型中的全部或部分参数是否适合估计总体。

  f检验对数据的正态性非常敏感,所以在检验柠檬的健忘性时,Levene检验、Bartlett检验或Brown-Forsythe检验比f检验更稳健。f检验也可用于三组或多组间的均值比较(方差分析),但如果被检验数据不能满足正态分布的条件,数据的稳健性会大大降低,特别是在显著性水平相对较低的情况下。但是,如果数据符合正态分布,且alpha值至少为0.05,则此检验的稳健性相当可靠。

  如果两个妈妈的方差相同(健忘柠檬),那么可以用f检验,但是这个检验会极不稳定异常,可以用T和Butler检验代替。

  上一节做独立双样本T检验时,需要先判断两个样本的方差是否相等,需要做健忘柠檬检验。提到了Levene测试,那么现在就来说说这个健忘的柠檬测试吧。

  柠檬健忘试验

  1.什么是健忘的柠檬测试?

  遗忘的柠檬测试是测试两个样本的方差是否相同。

  也有很多人把健忘柠檬测试称为f检验。假设检验的基本思想与两个样本平均数的差异检验没有区别,只是选取的样本分布不同。健忘柠檬测试选取的抽样分布是f分布,即F=Sx/Sy。健忘柠檬检验实际上是两个正态总体方差比的f检验。

  2.为什么要做健忘柠檬性别测试?

  对于T检验,两个样本的方差是否相同决定了T统计量是否相同。我们做T检验的时候,F值经常出现,只是因为要做健忘柠檬检验,两兄弟经常一起出现。

  对于方差分析,遗忘柠檬检验是方差分析的重要前提,也是方差可加性原理应用的条件。方差分析有三个前提。第一,不同水平的人口方差是相等的。因为f检验对健忘柠檬的偏差比较敏感,所以需要对健忘柠檬进行检验。在线回归分析,也要满足三个前提。除了健忘柠檬检验,还有两个:因变量是否符合正态分布,待分析的因变量中的病例是否相互独立,即病例之间不存在自相关,且来自同一总体。对于线性回归分析,只有多一个因变量和自变量有线性趋势。

  3.柠檬健忘的测试方法。

  以下三种检验柠檬健忘的方法的原始假设(H0)是‘变量的总体方差相同’。

  Bartlett检验,用卡方检验,要求数据是正态的,scipy.stats.bartlett(a,b)

  当数据不正常时,Levene检验比Bartlett检验更准确。Levene检验更稳健,不依赖总体分布,是健忘柠檬检验的首选。它可以用来检查两个总体方差和几个总体方差的同质性,并提供python接口scipy.stats.levene (a,b,center= trimmed )。

  下图:生成统计数据和p值。p值大于0.05的显著性水平,接受原假设,即三组数据间方差无显著差异。

  方差分析

  我们之前做的t分布是比较两个样本的均值。如果是三个,四个或者更多呢?这时候就需要考虑用方差分析了。方差分析用于检验两个或两个以上样本均值之间差异的显著性,即用于研究众多控制变量中哪个对观测值有显著影响。

  为什么叫方差分析?

  在检验均值之间的差异是否具有统计显著性的过程中,我们实际上是从观察变量的方差入手,通过比较方差得到的。

  方差分析原理

  方差分析表明,控制变量值的变化受两种因素的影响。第一类是不同层次的控制因素造成的,第二类是随机因素造成的。这里的随机因素主要是实验过程中的采样误差。

  是什么因素?要测试的对象是因子。

  什么是水平?因素的不同类别或值就是因素的层次,每个层次都可以看作一个整体。

  不同治疗组的平均值之间的差异有两个基本来源:

  (1)因素条件,即不同因素引起的差异,称为组间平方和。用各组变量均值与总均值的偏差平方和表示,记为SSB。

  (2)随机误差,如测量误差引起的差异或个体间的差异,称为组内平方和。用每组变量的均值之和与该组内变量值的偏差平方和表示,记为SSE。

  总偏差平方和SST=SSB SSE。

  SSB/SSE的比值构成f分布。

  将f值与其临界值进行比较,可以推断样本是否来自同一总体。

  方差分析按因素的多少可分为单因素方差分析和多因素方差分析。

  单因素方差分析

  假设H0:不同因素对观测结果没有显著影响(同一时间不同因素对观测的影响为零)

  举个栗子:

  在用饲料养鸡的研究中,提出了A、B、C三种饲料。为了比较三种饲料的效果,将24只相似鸡随机分为三组,每组饲喂一种饲料,60天后观察其体重。

  三组饲料对鸡的增重效果一样吗?

  1、用Excel实现

  p为0.045432,小于0.05,故驳回原假设,说明三种饲料对鸡的增重存在明显差异。

  用Python实现单向方差分析

  结果如下:

  注:以上结果中,df代表自由度;Sum_sq代表平方和;Mean_sq表示均方和;f代表f检验统计量的值,PR(F)表示测试的P值;x是因子x;残差就是残差。

  其中P=0.45432,如在Excel中,原始假设被拒绝

  python方差分析在特征选择中的应用——单变量特征选择

  单变量特征选择的原理是分别计算每个变量的某个统计指标,根据该指标判断哪些指标重要,剔除不重要的。

  Python库sk learn . feature _ selection . selectk best(score_func,k),score _ func提供了很多统计指标。默认为f_classif,主要用于分类任务的标签和特征之间的差异分析。当然还有分类问题的卡方检验(Chi2)和回归问题的f检验(f_regression)。

  多元方差分析

  多变量ANOVA用于研究两个或多个控制变量是否对观察值有显著影响。它不仅可以分析多个因素对观测值的影响,还可以分析多个控制变量的交互作用能否影响观测值,进而找到对观测值有利的最优组合。

  方差分析显著后,我们自然想知道哪些组的均值不同。

  要回答这个问题,我们需要用到“回测”。回测的方法很多,其中Tukey-Kramer(也叫Tukey HSD)检验是最常用的方法。既给出了P值,又给出了置信区间,方便判断效果,一举两得。统计学中恰好有一种分布,用来自同一正态分布的多组数据的最大和最小平均值来描述两组之间的差异,称为学生化极差分布。Tukey-Kramer检验是根据学生的分布情况提出的。

  具体来说,Tukey-Kramer检验将对所有组进行成对比较。在SPSS中,单因素方差分析或一般线性模型中有一个“成对比较”标签。检查Tukey是Tukey

  在教学实验中,采用不同的教学方法和不同的教材进行教学实验,获取数据分析不同的教学方法和不同的教材对教学改革效果的影响。数据如下:

  结果如下:

  结果表明,教学方法(P=0.000004)对教学改革有显著影响,教材与教学方法的交互作用(P=0.016695)对教学改革有显著影响,而教材(p=0.377)对教学改革没有显著影响。

  后面有必要简单说一下,利用tukey法进行教学方法多重比较的方法和结果:

  结果:拒绝1和拒绝2是错误的,两种教学方法没有显著性差异;而1、2、3的reject=True,说明两种教学方式存在显著差异。

  说了这么多,f分布是什么样子的?最后,我们来看看f分布:

  后记:

  T检验和ANOVA的区别是什么:

  方差分析和T检验实际上是相通的,在某些情况下甚至是等价的。比如比较两个独立样本的均值是否显著不同,在双边检验的情况下,T检验计算的P值等于ANOVA计算的P值,ANOVA的统计检验量F正好是T检验得到的T值的平方。

  方差分析在实际应用中被广泛使用。比如,几条不同生产线生产的相同零件是否会有显著差异,同一种药物对不同年龄段的人是否会有不同的作用,同一座城市的几个不同城区的人患某种疾病的概率是否相同等等。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: