kmeans聚类算法实验报告,python k-means聚类分析
1.数组的集中趋势-如何定义数组的中心
1.1经常使用几个指标来描述一个阵列的集中趋势。
平均值-算术平均值。
median-按升序或降序排列数组后位于中间的数字。
模式-数组中出现次数最多的数字。
1.2指标的特点
优势
劣势
平均值/均值
充分利用所有数据,包含最多信息,适用性强,应用最广。
容易受到离群值的影响,造成数据倾斜。
中位数
避免离群值的影响。
脸皮厚
方式
它能很好地反映数组的集中趋势。
当数组没有明显的集中趋势时,基本没有信息。
1.3平均使用场景
场景:双11之后,淘宝需要选择一个指标来代表11月的销售情况。应该如何选择?日均销量合适吗?
答:如果需要公布结果或者与供应商结算,可以用日均销售额,因为这是11月的真实数据。但是,如果需要依靠11月份的销售额来推断12月份的销售额,或者判断11月份的销售能力是否比10月份有所提升,就不能使用11月份的日均销售额,因为11月份销售额的飙升强烈依赖于外部环境。这种情况下,双十一销售异常,12月无法重复。在这种情况下,11月的日均销售额中值要好于日均销售额。
总结:在判断代表集中趋势的三个判断指标的使用场景时,应优先判断均值是否可用。当统计样本中存在最大值或最小值,而极值在我们需要处理的场景中不会重复出现时,这种情况下就没有均值了。
1.4在Excel和Python中的实现
超过
Average:平均值(数组);
中位数:中位数(数组),分位数(数组,[四分之一]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大值;
模式(数组)
计算机编程语言
将numpy作为np导入
从scipy导入统计
Mean: np.mean(数组)
Median: np.median(数组)
Mode: stats.mode (array) [0][0]
2.阵列的分散性-数据的稳定性
仅应用集中趋势并不能提供充分的信息,结合集中趋势和分散程度可以更好地理解数据。
2.1以下四个指标常用来描述数组的离散程度。
Range: maximum-minimum(上界-下界),代表数据的宽度,是衡量数组离散程度最简单的指标。
局限性:仅通过测量数组宽度很难得到数据的真实分布,容易受到离群值的影响。
四分位数距离:上四分位数-下四分位数,只适用于数据中心50%的数据,排除离群值的影响。
方差:数值与平均值之间距离的平方数的平均值。通常,样本方差用于估计总体方差。
人口方差是:
样本方差为:
标准差:方差的平方根,衡量数据和平均值之间的距离。
扩展:标准分数=平均值的标准偏差数。不同数据集的数据可以比较,但是这些不同数据集的均值和标准差是不同的。标准分数将几个数据集转换成Z分布,其平均值为0,标准差为1。
2.2在Excel和Python中的实现
超过
极限范围:最大(数组)-最小(数组)
四分位数距离:分位数(数组,3)-分位数(数组,1)
方差:Var(数组)
标准偏差:标准偏差(数组)
计算机编程语言
将numpy作为np导入
从scipy导入统计
进口熊猫作为pd
#离散趋势相关指标
Print(极差:,np.max(df)-np.min(df))
打印(四分位数偏差:,NP。百分位数(DF,75)-NP。百分位(DF,25))
打印(标准差:,np.std(df))
Print(方差:,np.var(df))
2.3总结
分散程度表明阵列的稳定性。比较两个数组时,通过综合比较均值和标准差/方差,可以更好地理解数据。
2020-04-15 17:07
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。