从零开始学python数据分析与挖掘 pdf,数据挖掘算法与应用(Python实现)
Seaborn介绍:Seaborn属于Matplotlib的一个高级接口,为我们可视化分析数据提供了极大的便利。
第一步:安装Seaborn。首先,确保您的计算机安装了以下应用程序
- Python 2.7或Python 3
熊猫
- Matplotlib
-海博恩
-Jupyter笔记本电脑(可选)
打开Jupyter笔记本,几秒钟后会弹出网页窗口Home。
点击右边的新建,新建一个笔记本,会弹出一个新的网页窗口。单击顶部以命名文件。
第二步:加载库和数据文件加载熊猫、matplotlib和seaborn。
这里提供了一个数据文件,下载链接是:
口袋妖怪. csv
用熊猫读数据文件,显示前五行。
编译的结果是一个列表。
第三步:Seaborn的画图功能。Seaborn最大的优势之一就在于它丰富多样的绘图功能。下面,我们用一行代码用lmplot()函数画散点图。
如果我们希望X轴显示攻击数据,Y轴显示防御数据,我们可以编写代码。
事实上,seaborn并没有绘制散点图的特殊功能。事实上,我们用它来拟合和绘制回归线。
将图片描述写在这里" title=" "
幸运的是,我们可以通过设置函数的参数得到我们想要的散点图。用fit_reg=False去掉回归线,用hug参数用不同颜色显示口袋妖怪进化阶段的信息。
立即获取散点图:
从散点图可以看出,所有的数据点都分布在数轴的正半轴上,但是散点图的数轴是从负数开始的,所以我们可以改进。
第四步:用Matplotlib定制虽然Seaborn是Matplotlib的高级接口,但是我们有时候还是需要用到Matplotlib。包括设置数轴的范围。
我们使用Matplotlib的ylim()和xlim()函数来设置数轴的范围。
你可以得到一个散点图,只显示积极的一部分。
第五步:熊猫的作用虽然这是一个Seaborn教程,但是熊猫在实际应用中还是有非常重要的作用的。
我们根据口袋妖怪的攻击数据画一个方框图。
获取方框图:
很好,这是一个好的开始,但是我们可以删除一些不必要的数据列。
去掉Total,因为我们有独立的统计数据。
删除Stage和Legendary,因为它们不是攻击统计。
我们可以创建一个新的数据集stats_df来满足我们的上述需求。
获得了改进的箱线图。
第六步:Seaborn主题Seaborn的另一个优势是它恰到好处的、开箱即用的风格主题。默认主题是“暗格”
接下来,我们将主题更改为“whitegrid ”,以创建一个violin图。
小提琴图经常被用来代替箱线图。
该图显示了数据通过小提琴厚度的分布,而不仅仅是汇总数据。
根据口袋妖怪的主要类型,我们可以可视化攻击数据的分布。
你可以得到小提琴图。X轴表示口袋妖怪的Type1,Y轴表示不同口袋妖怪的攻击值。
很容易看出,龙型往往攻击值很高,但不同个体之间差异很大。
第七步:调色板Seaborn可以根据我们的需要设置颜色。我们可以创建一个python命令列表,并用颜色的十六进制值来设置它。值可以在Bulbapedia中找到。
你可以得到一张小提琴的照片,它的颜色已经被重置。
为了使数据文件中的151个口袋妖怪能够简单地显示在图形中,我们可以使用聚类图swarm plot来达到这个目的。
可以得到151个数据点在聚类图上的分布,不同的点代表不同的口袋妖怪。
第八步:图形重叠我们已经画出了小提琴图和聚类图。Seaborn允许我们将这两个图整合成一个图。步骤如下:
首先,我们用Matplotlib设置图形比例。然后,我们画小提琴图,用inner=None去掉小提琴中间的木杆。接下来,我们绘制聚类图,并将数据点的颜色变成黑色。最后,我们可以用Matplotlib设置一个标题。
其中是透明度。
编译后可以得到下图。
现在我们可以清楚的看到不同口袋妖怪的攻击值。那么我们是怎么看待其他价值观的呢?
第九步:融合数据为了展示其他数据,我们当然可以重复上面的步骤,画多张图。但是我们也可以把所有的数据都表现在一张图中,到时候熊猫就派上用场了。
我们可以用熊猫的melt()函数来融合一些数据,这样就可以直接比较不同的口袋妖怪了。melt()需要导入三个参数,即:
要融合的数据列表需要预留的ID变量,其他变量由熊猫融合。被融合的新变量的名称。
根据前5行的数据可以看出,6列数据已经合并为Stat的一列,数值显示在value的一列。实际上,Stat在原始列表中已经包含了六列数据。
我们为融合数据列表melted_df画一个聚类图。
你可以得到下面的聚类图。x轴是Stat中融合的六个变量,y轴是Stat的值,不同的颜色代表不同的Pokemon Type 1。
这张图表有一些细节需要完善:
放大图表。
使用split=True来分隔音调。
使用我们定制的颜色。
调整y轴的范围。
将图例放在右边。
你可以得到一个细节完美的图表。
步骤10:迷你图库10.1-热图
热图可以帮助可视化矩阵数据。
10.2-直方图
直方图可以绘出变量的数值分布。
可以清楚的看到口袋妖怪攻击值的分布。
10.3格图
条形图有助于可视化分类变量。
你可以清楚地看到不同类型的口袋妖怪的数量。
10.4因素图
因子图可以根据类别分隔图表。
可以得到三个按阶段分开的图表,用不同颜色的点来代表不同的口袋妖怪。
10.5-密度图
密度图显示了两个变量之间的分布。
曲线越密,两个变量的关系越近,曲线越稀,关系越远。
10.6-联合分布图
联合分布图结合了散点图和直方图的信息,提供了二元分布的详细信息。
更多详情请移至官网或有混沌星系的窗口。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。