bootstrap抽样法,Python bootstrap

  bootstrap抽样法,Python bootstrap

  主页

  特别纵队

  大蟒

  文章详细信息

  0

  说到统计,Bootstrap在做什么?

  Ssdzjy今天10:44发的。

  学过统计学的同学应该知道置信区间,也叫估计区间。就概率而言,它是随机变量的可能值的范围。

  在上一篇文章【谈置信和置信区间】中,我们谈到了为什么会有置信区间,以及如何得到置信区间。在那篇文章中,当数据服从正态分布时,95%的置信区间是均值的1.96倍的标准差。

  当时数据不符合正态分布,或者在不知道样本整体是否符合正态分布,但需要计算置信区间时,可以使用-Bootstrap抽样方法,这就是我们今天的主角。

  Bootstrap是对有回报的样本进行抽样,抽样数次(一般1000次),每次抽样的结果作为一个样本点。采样1000次后,会有1000个样本点。将这1000个点的分布作为样本总体的分布,这1000个点大概率服从正态分布。只要服从正态分布,就可以根据正态分布的公式计算出置信区间。

  那这1000点为什么服从正态分布呢?基于中心极限定理。

  接下来,我们来看一个例子。第一个老师变成了长尾分布数据:

  fromscipy.statsimportf

  dfn,dfd=45,10

  r=f.rvs(dfn,dfd,size=10000)

  sns.distplot(r)

  在实际业务中,很多数据其实是符合长尾分布的。然后,我们对具有这种长尾分布的数据进行Bootstrap采样。返回的样本有1000个,每次取10000个样本。最后我们得到1000个平均值,这1000个平均值的分布如下:

  importnumpyasnp

  sample_mean=[]

  forninrange(1,1001):

  s=np.random.choice(r,size=10000)。平均值()

  sample _均值.追加

  运行上述代码以获得以下结果:

  可以看出,这1000个平均值是符合正态分布的。只要它们符合正态分布,我们就可以用正态分布的性质来估计它们。

  以上是关于Bootstrap的简单介绍。希望对你有用。

  Mysqlpython数据挖掘数据库网络爬虫

  《阅读41》于今日10:44发布。

  募捐

  分享

  本作品为原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议。

  wxdcc的数据分析之路

  微信官方账号:《wxdcc的数据分析之路》,分享数据分析相关内容。

  焦点栏

  ssdzjy

  微信官方账号:《wxdcc的数据分析之路》,分享数据分析相关内容。

  1声望

  0粉丝

  注意作者

  0条评论

  投票时间

  提交评论

  ssdzjy

  微信官方账号:《wxdcc的数据分析之路》,分享数据分析相关内容。

  1声望

  0粉丝

  注意作者

  宣传栏

  学过统计学的同学应该知道置信区间,也叫估计区间。就概率而言,它是随机变量的可能值的范围。

  在上一篇文章【谈置信和置信区间】中,我们谈到了为什么会有置信区间,以及如何得到置信区间。在那篇文章中,当数据服从正态分布时,95%的置信区间是均值的1.96倍的标准差。

  当时数据不符合正态分布,或者在不知道样本整体是否符合正态分布,但需要计算置信区间时,可以使用-Bootstrap抽样方法,这就是我们今天的主角。

  Bootstrap是对有回报的样本进行抽样,抽样数次(一般1000次),每次抽样的结果作为一个样本点。采样1000次后,会有1000个样本点。将这1000个点的分布作为样本总体的分布,这1000个点大概率服从正态分布。只要服从正态分布,就可以根据正态分布的公式计算出置信区间。

  那这1000点为什么服从正态分布呢?基于中心极限定理。

  接下来,我们来看一个例子。第一个老师变成了长尾分布数据:

  fromscipy.statsimportf

  dfn,dfd=45,10

  r=f.rvs(dfn,dfd,size=10000)

  sns.distplot(r)

  在实际业务中,很多数据其实是符合长尾分布的。然后,我们对具有这种长尾分布的数据进行Bootstrap采样。返回的样本有1000个,每次取10000个样本。最后我们得到1000个平均值,这1000个平均值的分布如下:

  importnumpyasnp

  sample_mean=[]

  forninrange(1,1001):

  s=np.random.choice(r,size=10000)。平均值()

  sample _均值.追加

  运行上述代码以获得以下结果:

  可以看出,这1000个平均值是符合正态分布的。只要它们符合正态分布,我们就可以用正态分布的性质来估计它们。

  以上是关于Bootstrap的简单介绍。希望对你有用。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: