kmeans聚类算法实验报告,python k-means聚类分析

  kmeans聚类算法实验报告,python k-means聚类分析

  1.数组的集中趋势-如何定义数组的中心

  1.1经常使用几个指标来描述一个阵列的集中趋势。

  平均值-算术平均值。

  median-按升序或降序排列数组后位于中间的数字。

  模式-数组中出现次数最多的数字。

  1.2指标的特点

  优势

  劣势

  平均值/均值

  充分利用所有数据,包含最多信息,适用性强,应用最广。

  容易受到离群值的影响,造成数据倾斜。

  中位数

  避免离群值的影响。

  脸皮厚

  方式

  它能很好地反映数组的集中趋势。

  当数组没有明显的集中趋势时,基本没有信息。

  1.3平均使用场景

  场景:双11之后,淘宝需要选择一个指标来代表11月的销售情况。应该如何选择?日均销量合适吗?

  答:如果需要公布结果或者与供应商结算,可以用日均销售额,因为这是11月的真实数据。但是,如果需要依靠11月份的销售额来推断12月份的销售额,或者判断11月份的销售能力是否比10月份有所提升,就不能使用11月份的日均销售额,因为11月份销售额的飙升强烈依赖于外部环境。这种情况下,双十一销售异常,12月无法重复。在这种情况下,11月的日均销售额中值要好于日均销售额。

  总结:在判断代表集中趋势的三个判断指标的使用场景时,应优先判断均值是否可用。当统计样本中存在最大值或最小值,而极值在我们需要处理的场景中不会重复出现时,这种情况下就没有均值了。

  1.4在Excel和Python中的实现

  超过

  Average:平均值(数组);

  中位数:中位数(数组),分位数(数组,[四分之一]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大值;

  模式(数组)

  计算机编程语言

  将numpy作为np导入

  从scipy导入统计

  Mean: np.mean(数组)

  Median: np.median(数组)

  Mode: stats.mode (array) [0][0]

  2.阵列的分散性-数据的稳定性

  仅应用集中趋势并不能提供充分的信息,结合集中趋势和分散程度可以更好地理解数据。

  2.1以下四个指标常用来描述数组的离散程度。

  Range: maximum-minimum(上界-下界),代表数据的宽度,是衡量数组离散程度最简单的指标。

  局限性:仅通过测量数组宽度很难得到数据的真实分布,容易受到离群值的影响。

  四分位数距离:上四分位数-下四分位数,只适用于数据中心50%的数据,排除离群值的影响。

  方差:数值与平均值之间距离的平方数的平均值。通常,样本方差用于估计总体方差。

  人口方差是:

  样本方差为:

  标准差:方差的平方根,衡量数据和平均值之间的距离。

  扩展:标准分数=平均值的标准偏差数。不同数据集的数据可以比较,但是这些不同数据集的均值和标准差是不同的。标准分数将几个数据集转换成Z分布,其平均值为0,标准差为1。

  2.2在Excel和Python中的实现

  超过

  极限范围:最大(数组)-最小(数组)

  四分位数距离:分位数(数组,3)-分位数(数组,1)

  方差:Var(数组)

  标准偏差:标准偏差(数组)

  计算机编程语言

  将numpy作为np导入

  从scipy导入统计

  进口熊猫作为pd

  #离散趋势相关指标

  Print(极差:,np.max(df)-np.min(df))

  打印(四分位数偏差:,NP。百分位数(DF,75)-NP。百分位(DF,25))

  打印(标准差:,np.std(df))

  Print(方差:,np.var(df))

  2.3总结

  分散程度表明阵列的稳定性。比较两个数组时,通过综合比较均值和标准差/方差,可以更好地理解数据。

  2020-04-15 17:07

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: