matlab剔除异常值,箱线图剔除异常值
解释
数据分析教程正在规划编写中。欢迎大家添加微信sinbam提供意见、建议、纠错、提醒。
识别异常值的箱线图。箱线图提供了一个识别异常值的标准,即异常值通常定义为小于QL-1.5IQR或大于QU1.5 IQR的值。
方框图识别异常值。
离群值是数据序列中的一个极值,要么很小,要么很大,因此影响数据序列的整体观测值。异常也称为极值,因为它们位于数据序列的两端。因为它的极值很高或很低,都可能影响整体观测,所以要从数据序列中剔除。
箱线图,也称为箱线图,是一种典型的四分位之间的图解法,有助于定义上下限。任何超过上限和下限的数据都将被视为异常值。该图表的目的是识别异常值,并在进一步观察之前将它们从数据序列中删除,以便从研究中得出的结论可以给出更准确的结果,而不受任何极端值或异常值的影响。
算法
在序列的四分位数中:
四分位距离IQR=Q3Q1
下限=Q11.5 IQR。
上限上限=Q3 1.5 IQR
下限和上限之外的数据为异常值。
原则
即如果数据点低于Q1-1.5IQR或高于Q1-1.5IQR,则认为离中心值太远,不合理。可能你测量的时候碰了秤,或者你的实验室伙伴是个傻逼,你不应该让他碰任何设备。谁知道呢?但是不管他们的原因是什么,离群值是那些看起来不“适合”的。
为什么是异常值框宽度的1.5倍?为什么这个特定的值标志着“可接受”和“不可接受”值之间的区别?因为,当约翰图基在1977年发明显示这些值的盒须图时,他选择了1.5IQR作为异常值的未标记线。这个管用,所以我们一直用这个值。如果你深入研究统计学,你会发现,对于钟形数据来说,这个合理性度量意味着只有大约百分之一的数据是异常值。
代码实现
Python中的熊猫库:
进口熊猫作为pd
df=PD . read _ CSV( https://www . Gai ruo . com/file/data/team . CSV )
df.head()
命名团队Q1 Q2 Q3 Q4
0肝脏E 555 21 24 64
1 Arry C 36 888 37 57
2 Ack A 57 60 18 84
3乔治C 93 96 71 78
4 Oah D 65 49 61 86
#构建异常值
df.at[0, Q1]=555
df.at[1, Q2]=888
df.at[2, Q4]=-111
#检测到的异常值设置为nan
定义框_图_异常值:
q1,q3=标准分位数(. 25),标准分位数(. 75)
iqr=q3 - q1
低,上=q1 - 1.5*iqr,q3 1.5*iqr
离群值=s.mask((sup))
返回异常值
#应用程序
df.head()。loc[: Q1:]。应用(方框图异常值)
Q1 Q2第三季度第四季度
0南21.0 24.0 64
1 36.0南37.0 57
2 57.0 60.0南84
3 93.0 96.0 71.0 78
4 65.0 49.0 61.0 86
涉及
https://www.purplemath.com/modules/boxwhisk3.htm
https://www . whatsissixsigma . net/box-plot-diagram-to-identify-outliers/
https://www.zhihu.com/question/36172806
相关内容
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。