python绘制箱线图代码,Python好看的多组箱线图
一、箱线图概念
箱形图(Box-plot)又称箱形图、箱形图或箱形图,是一种用来显示一组数据离散度的统计图。
计算过程:
(1)计算上四分位数(Q3)、中位数和下四分位数(Q1)
(2)计算上四分位数和下四分位数之差,即四分位数间距)Q3-Q1。
(3)画出箱线图的上下范围,上限为上四分位数,下限为下四分位数。在盒子内部的中间位置画一条水平线。
(4)大于上四分位数四分位数差1.5倍或小于下四分位数四分位数差1.5倍的值被归类为异常值。
(5)除异常值外,在最靠近上边缘和下边缘的两个值处画横线作为盒图的触角。
(6)极端异常值,即超过四分位数差3倍距离的异常值,用实线点表示;轻度异常值,即四分位数差的1.5倍至3倍之间的异常值,用空心点表示。
(7)添加姓名、坐标轴等。到方框图。
相关:《Python入门教程》
二、四分位数的计算
分位数可分为中位数、四分位数、十分位数、百分位数等。根据数列分成等份的形式。四分位数作为分位数的一种形式,在统计学中起着非常重要的作用。但大多数统计原理教材只介绍其基本含义,不介绍其具体计算,尤其是群距数列的计算,成为统计原理教材中的一个空白。那么,如何根据数列计算四分位数呢?一般来说,要看数据是否分组。
1.根据未分组的数据计算四分位数。
步骤1:确定四分位数的位置
第二步:根据第一步确定的四分位数的位置,确定其对应的四分位数。
例如:某月某车间工人生产一件产品的数量为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位置为:
也就是说,变量序列中第三、第六和第九个工人的产量分别是下四分位数、中四分位数和上四分位数。即:
Q1=13.8,Q2=14.6公斤,Q3=15.2kg公斤
在上面的例子中,(n ^ 1)正好是4的倍数,所以确定四个分数很简单。如果(n ^ 1)不是4的整数倍,根据上述分数计算的四分位数位置有小数。此时,相关的四分位数应该是与小数相邻的两个整数位置的标记值的平均值。权重取决于两个整数位置之间的距离。距离越近,权重越大,距离越远。
例:如果某个车间的工人在某个月生产的一件产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,那么这三个四分位数的位置分别为:
即变量序列中第2.75项、第5.5项和第8.25项的工人某一产品的产量分别为下四分位数、中位数和上四分位数。即:
在实际数据中,由于标记值序列中相邻的标记值往往是相同的,所以不需要计算相关的四分位数。
2.四分位数由区间数列决定。
第一步是累积上涨或下跌的时间。
第二步,根据累计次数确定四分位数的位置。
(1)当使用累积次数的数据确定四分位数时,四分位数位置的公式为:
(2)当使用向下累计次数的数据确定四分位数时,四分位数位置的公式为:
第三步:根据四分位数的位置计算每个四分位数。
(1)累计次数向上累计时,根据下限公式计算各四分位数。
(2)累计次数向下累计时,根据上限公式计算各四分位数。
例3:某企业员工月薪分组数据如下:
根据上述资料,某企业员工月薪的三个四分位数确定如下:
(1)利用累计从业人数的数据,月薪四分位数的位置是:
(2)利用向下累计的员工人数数据,月薪四分位数的位置为:
3.异常值
三、画图
#Python
非常非常重要
importplotly.graph_objsasgo
数据=[
走吧。方框(
y=[0,1,1,2,3,5,8,13,21]#9个数据
)
]
plotly.offline.plot(data)#离线绘图
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。