小提琴图python,python绘制小提琴图

  小提琴图python,python绘制小提琴图

  数据来自天池竞赛:零基础入门数据挖掘-二手车交易价格预测。

  地址:3359 Tianchi . aliyun . com/competition/entry/231784/简介?SPM=5176.12281957.1004 . 1.38 b 02448 aus jsx

  目录、原理介绍、代码实现、结果解释、原理介绍

  小提琴情节,顾名思义,是一种看起来像小提琴的情节。这个图用来表示数据的分布和概率密度,可以看作是箱线图和密度图的结合。小提琴图的中间部分反映了盒图的信息,图的两边反映了密度图的信息。小提琴图常用于建模前对EDA数据的探索性分析。

  对以下小提琴图中反映的信息进行总结:

  分布小提琴图中间的粗黑条用于显示四分位数。粗黑条中间的白点代表中位数,粗条的上下边缘分别代表上四分位数和下四分位数。四分位数的值可以通过边缘位置对应的Y轴的值看出。从粗黑条延伸的细黑线表示95%的置信区间。概率信息你可以从小提琴图的形状看到任意位置的数据密度,小提琴图其实是一个旋转了90度的密度图。小提琴越宽,密度越高。可以显示多个数据峰值。二。代码实现#加载所需的模块导入警告警告。过滤警告( ignore )导入熊猫as PD导入numpy as NP导入matplotlib.py plot as PLT导入seaborn as SNS #导入数据train _ data=PD . read _ CSV( f:/data/used _ car _ train _ 2020 03 13 . CSV ,Sep=) train _ data [gearbox]。value _ counts () # Count分类变量的类别#后面会研究不同类型的变速箱对应价格的区别x=train _ data [变速箱] y=train _ data [价格] # Price 针对目标变量#绘制violin graph sns.violinplot (x=x,y=y,data=train _ data) #在sns中。ViolinPlot,x是类别变量,y是数值变量,data用于指定数据集。运行代码后,可以得到小提琴图。

  三。结果解读从上面的小提琴图可以看出,不同变速箱品类对应的二手车价格是不一样的。变速箱类别为1时,车价相对较高。在建模过程中,往往这个差异较大的变量建模效果更好,因此可以初步选择齿轮箱作为后期模型的输入变量。从分布来看,普莱斯极度右倾。因为目标变量不符合正态分布,所以需要在回归前进行转换。常用的转换方法有取对数法和拟合无界调和谷物分布法。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: