用python绘制箱线图,matplotlib箱形图
本文主要告诉你如何使用Python中的matplotlib库来绘制箱线图,输出离群值。本文中的示例代码解释的很详细,有需要的可以参考一下。
00-1010 1.关于箱线图和plt.boxplot()方法2。画一个简单的方框图。画一个更精致的图像4。异常值标准5。异常值的输出。
目录
箱线图也叫箱线图,有些地方也可以叫箱线图。使用盒图的好处是可以用一种相对稳定的方式描述数据的离散分布,识别数据中的异常值。
pthon的matplotlib库中使用plt.boxplot()方法绘制盒图。
该方法的主要参数如下
参数x描述绘制盒图的数据的缺口是否以凹凸形式显示盒图。缺省值为非凹sym指定异常点的形状,缺省值为加号()表示vert是否需要垂直放置箱线图,同时指定上下限值和上下四分位数之间的距离。将箱线图的位置指定为默认四分位数偏差位置的1.5倍。默认情况下,箱形图的宽度指定为[0,1,2]宽度。默认为0.5patch_artist。方框颜色是否填充,均值线是否以线的形式表示均值,默认以点的形式表示。仅当showmeans为True时,此参数才有意义。默认情况下,不显示showmeans是否显示平均值,以及showcaps是否显示盒形图顶部和末端的两条线。就是默认不显示的showbox是否显示箱体,showfliers是否默认显示异常值,boxprops默认设置箱体的属性,比如边框颜色,填充颜色等。当patch_artist为True时,填充框的颜色(facecolor键)有效。medianprops设置中间属性,如线条的类型和粗细。meanprops设置平均属性,如点的大小和颜色。capprops设置方框图的顶线和端线的属性,如颜色和粗细。whiskerprops设置所需的属性。例如颜色、粗细、线条类型等。
1. 关于箱线图 及 plt.boxplot()方法
随机数种子用于随机生成三组随机但固定的数据。用于绘制三个框线个体(一张图片)。
全局字体使用常规字体。
将matplotlib.pyplot作为plt导入
将numpy作为np导入
fig=plt.figure(1,facecolor=#33ff99 ,figsize=(10,6))
PLT . RC params[ font . sans-serif ]=[ STK aiti ]
PLT . RC params[ axes . unicode _ MINUS ]=False
PLT . RC params[ axes . face color ]= # cc 00 ff
种子(30)
data1=np.random.randint(20,100,200)
data2=np.random.randint(30,120,200)
data3=np.random.randint(40,110,200)
PLT . box plot([数据1,数据2,数据3])
Plt。x张票(范围(1,4),[A , B , C ],fontsize=20)
plt.yticks(fontsize=20)
Plt.title(方框图,fontsize=25,color=#0033cc )
plt.show()
图像效果如下:
style="text-align:center">
3. 绘制一幅更精致的图像
下边的数据中,修改了一下数据。上边随机产生的数据因为较为均匀,所以很难产生异常值,达不到箱线图的预期展示效果。
使用 * 符号来标记异常值。并使用线来标出每组数据的均值。
import matplotlib.pyplot as pltimport numpy as np
fig = plt.figure(1, facecolor=#33ff99, figsize=(10, 6))
plt.rcParams[font.sans-serif] = [STKAITI]
plt.rcParams[axes.unicode_minus] = False
plt.rcParams[axes.facecolor] = #cc00ff
np.random.seed(110)
data1 = np.random.randint(20, 100, 200)
data2 = np.random.randint(30, 120, 200)
data3 = np.random.randint(40, 110, 200)
# 修改几个值,作为异常值,方便展示
data1[100:102] = [142, 150]
data3[100:103] = [1, 5, 154]
plt.boxplot([data1, data2, data3],
notch=True,
sym=*,
patch_artist=True,
boxprops={color: #ffff00, facecolor: #0066ff},
capprops={color: #ff3333, linewidth: 2},
showmeans=True,
meanline=True
)
plt.xticks(range(1, 4), [A型, B型, C型], fontsize=20)
plt.yticks(fontsize=20)
plt.title(箱线图, fontsize=25, color=#0033cc)
plt.show()
代码执行效果如下:
4. 异常值的标准
通过whis参数可以修改判断异常值的标准。默认将不在【均值±1.5倍四分位差】范围内的判断为异常值。
在上述代码的基础上稍作修改:
设置whis=2
import matplotlib.pyplot as pltimport numpy as np
fig = plt.figure(1, facecolor=#33ff99, figsize=(10, 6))
plt.rcParams[font.sans-serif] = [STKAITI]
plt.rcParams[axes.unicode_minus] = False
plt.rcParams[axes.facecolor] = #cc00ff
np.random.seed(110)
data1 = np.random.randint(20, 100, 200)
data2 = np.random.randint(30, 120, 200)
data3 = np.random.randint(40, 110, 200)
# 修改几个值,作为异常值,方便展示
data1[100:102] = [142, 150]
data3[100:103] = [1, 5, 154]
plt.boxplot([data1, data2, data3],
whis=2,
notch=True,
sym=*,
patch_artist=True,
boxprops={color: #ffff00, facecolor: #0066ff},
capprops={color: #ff3333, linewidth: 2},
showmeans=True,
meanline=True
)
plt.xticks(range(1, 4), [A型, B型, C型], fontsize=20)
plt.yticks(fontsize=20)
plt.title(箱线图, fontsize=25, color=#0033cc)
plt.show()
则结果中已经不再有异常值:
5. 异常值的输出
上文只是将异常值以可视化的方式呈现在了读者眼前。当然,做数据分析时仅仅这样是不够的,通常还需要对数据进行处理,如去除。
下边的python代码来完成异常值的输出:
import numpy as npnp.random.seed(110)
data1 = np.random.randint(20, 100, 200)
data2 = np.random.randint(30, 120, 200)
data3 = np.random.randint(40, 110, 200)
# 修改几个值,作为异常值,方便展示
data1[100:102] = [142, 150]
data3[100:103] = [1, 5, 154]
Q1 = np.quantile(a=data3, q=0.25)
Q3 = np.quantile(a=data3, q=0.75)
# 计算 四分位差
QR = Q3 - Q1
# 下限 与 上线
low_limit = Q1 - 1.5 * QR
up_limit = Q3 + 1.5 * QR
print(下限为:, low_limit)
print(上限为:, up_limit)
print(异常值有:)
print(data3[(data3 < low_limit) + (data3 > up_limit)])
到此这篇关于基于Python matplotlib库绘制箱线图的文章就介绍到这了,更多相关Python matplotlib箱线图内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。