bootstrap抽样法,Python bootstrap
主页
特别纵队
大蟒
文章详细信息
0
说到统计,Bootstrap在做什么?
Ssdzjy今天10:44发的。
学过统计学的同学应该知道置信区间,也叫估计区间。就概率而言,它是随机变量的可能值的范围。
在上一篇文章【谈置信和置信区间】中,我们谈到了为什么会有置信区间,以及如何得到置信区间。在那篇文章中,当数据服从正态分布时,95%的置信区间是均值的1.96倍的标准差。
当时数据不符合正态分布,或者在不知道样本整体是否符合正态分布,但需要计算置信区间时,可以使用-Bootstrap抽样方法,这就是我们今天的主角。
Bootstrap是对有回报的样本进行抽样,抽样数次(一般1000次),每次抽样的结果作为一个样本点。采样1000次后,会有1000个样本点。将这1000个点的分布作为样本总体的分布,这1000个点大概率服从正态分布。只要服从正态分布,就可以根据正态分布的公式计算出置信区间。
那这1000点为什么服从正态分布呢?基于中心极限定理。
接下来,我们来看一个例子。第一个老师变成了长尾分布数据:
fromscipy.statsimportf
dfn,dfd=45,10
r=f.rvs(dfn,dfd,size=10000)
sns.distplot(r)
在实际业务中,很多数据其实是符合长尾分布的。然后,我们对具有这种长尾分布的数据进行Bootstrap采样。返回的样本有1000个,每次取10000个样本。最后我们得到1000个平均值,这1000个平均值的分布如下:
importnumpyasnp
sample_mean=[]
forninrange(1,1001):
s=np.random.choice(r,size=10000)。平均值()
sample _均值.追加
运行上述代码以获得以下结果:
可以看出,这1000个平均值是符合正态分布的。只要它们符合正态分布,我们就可以用正态分布的性质来估计它们。
以上是关于Bootstrap的简单介绍。希望对你有用。
Mysqlpython数据挖掘数据库网络爬虫
《阅读41》于今日10:44发布。
募捐
分享
本作品为原创,采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议。
wxdcc的数据分析之路
微信官方账号:《wxdcc的数据分析之路》,分享数据分析相关内容。
焦点栏
ssdzjy
微信官方账号:《wxdcc的数据分析之路》,分享数据分析相关内容。
1声望
0粉丝
注意作者
0条评论
投票时间
提交评论
ssdzjy
微信官方账号:《wxdcc的数据分析之路》,分享数据分析相关内容。
1声望
0粉丝
注意作者
宣传栏
学过统计学的同学应该知道置信区间,也叫估计区间。就概率而言,它是随机变量的可能值的范围。
在上一篇文章【谈置信和置信区间】中,我们谈到了为什么会有置信区间,以及如何得到置信区间。在那篇文章中,当数据服从正态分布时,95%的置信区间是均值的1.96倍的标准差。
当时数据不符合正态分布,或者在不知道样本整体是否符合正态分布,但需要计算置信区间时,可以使用-Bootstrap抽样方法,这就是我们今天的主角。
Bootstrap是对有回报的样本进行抽样,抽样数次(一般1000次),每次抽样的结果作为一个样本点。采样1000次后,会有1000个样本点。将这1000个点的分布作为样本总体的分布,这1000个点大概率服从正态分布。只要服从正态分布,就可以根据正态分布的公式计算出置信区间。
那这1000点为什么服从正态分布呢?基于中心极限定理。
接下来,我们来看一个例子。第一个老师变成了长尾分布数据:
fromscipy.statsimportf
dfn,dfd=45,10
r=f.rvs(dfn,dfd,size=10000)
sns.distplot(r)
在实际业务中,很多数据其实是符合长尾分布的。然后,我们对具有这种长尾分布的数据进行Bootstrap采样。返回的样本有1000个,每次取10000个样本。最后我们得到1000个平均值,这1000个平均值的分布如下:
importnumpyasnp
sample_mean=[]
forninrange(1,1001):
s=np.random.choice(r,size=10000)。平均值()
sample _均值.追加
运行上述代码以获得以下结果:
可以看出,这1000个平均值是符合正态分布的。只要它们符合正态分布,我们就可以用正态分布的性质来估计它们。
以上是关于Bootstrap的简单介绍。希望对你有用。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。