Python中pandas库,python数据分析活用pandas库
典型的数据可视化库包括:
Matplotlib是最常见的二维数据库,可以看作是可视化的必备技能库。因为matplotlib是一个比较基础的库,API比较多,学习代码也不容易。
Seaborn基于matplotlib构建,可以满足大多数可视化需求。更特殊的需求是学习matplotlib。
PyCharts上面两个库是静态可视化库,但是PyCharts有很好的web兼容性,可以提供动态的视觉效果。
然而,在数据科学中,pandas数据分析库在大多数情况下是不可或缺的,但pandas可以
数据采集:如何批量采集网络表单的数据?
数据读取:pd.read_csv/pd.read_excel
了解apply和map在数据清理(预处理)pandas中的作用、异同。
可视化,兼容matplotlib语法(今日重点)))))))))))))))))))))))))))))。
准备工作/即将开始工作
如果你之前没学过熊猫和matpltolib,那我们先安装这些库。
!3 pip安装号!Pip装熊猫!Pip安装附件
已经安装好了。在这里,我们将导入这些库。使用伦敦的天气数据,最初只取了12个月的小数据作为例子。
#jupyter笔记本添加此行代码% matplotlinelinimportmatplotlib . pyplotportnumpyasnpimportpanda ASPD #以获取天气数据df=
最简单的lot图
在横坐标中选择月,在纵坐标中选择Tmax进行绘图。
请注意以下两种写法。
# Write 1df.plot(x=month ,y=Tmax) (plt.show))))。
横轴参数x传递df的列名Month。
纵轴参数y传递df的列名Tmax。
折线图
上图是折线图。有三种折线图语法。
df.plot(x=month ,y=Tmax ).
df.plot(x=month ,y=Tmax ,kind=line )
df.plot.line(x=month ,y=Tmax ))
df.plot.line(x=month ,y=Tmax ) (plt.show))
#grid网格线df.plot(x=month ,y=Tmax ,kind=line ,grid=True) plt.show))。
多个y值
上面的折线图只有一条线。如何在一个图上画多个Y,比如Tmax,Tmin。
df.plot(x=month ,y=[Tmax , Tmin] ) plt.show))
条形图
Df.plot(x=month ,y=Rain ,kind=bar )类似,#df.plot.bar) x=month ,y=Rain) PLT。
水平条形图
条形保护barh可以把直方图变成水平直方图。
Df.plot(x=月,y=雨,kind=裸)类似,#df.plot.bar) x=月,y=雨 PLT)
多变量条形图
df.plot(kind=bar ,x=Month ,y=[Tmax , Tmin] ) plt.show))
散点图
df.plot(kind=Scatter ,x=Month ,y=Sun ) (plt.show))
馅饼
df.plot(kind=pie ,y=Sun ) (plt.show)).
图中有两个小问题。
不应显示图例图例。
月亮的显示用数字不是很正式。
df.index=[一月,二月,三月,四月,五月,六月,七月,八月,九月,十月,十一月
更多数据
当初只有12条记录(12个月)的数据,现在用的是更大的伦敦天气数据。
importpandasaspddf 2=PD . read _ CSV(数据/伦敦天气。CSV ) (df2.head)).
df2.rain.describe(计数748.0000000平均值50.408957 STD 29.721493最小值0.30000000025 80000000050 f 10000000075h . 8000000000最大值174。
上面有748条记录,也就是62年的记录。
箱形图
df2 . plot . box(y= rain )df2 . plot(y= rain ,kind=box ) plt.show))).
柱状图
df2.plot(y=rain ,kind= hist )(df2 . plot . hist(y= rain )PLT . show)).
垂直轴的刻度可以用箱来设置。
DF2.plot(y=rain ,kind=hist ,bins=[ 0,25,50,75,100,125,150,175,200 ])
多图共存
Df.plot(kind=line ,y=[Tmax , Tmin , Rain , sun ),#可视化四个变量子图=True,#共存布局=多个子图=
Df.plot(kind=bar ,y=[Tmax , Tmin , Rain , sun ),#可视化四个变量,subplots=True,#排列多个子图
添加标题
向可视化添加标题。
Df.plot(kind=bar ,y=[Tmax , Tmin],#可视化两个变量subplots=True,#多视图共存布局=) 1,2),# child
保存结果
您可以将的结果保存为图像文件。
df.plot(kind=pie ,y=Rain ,legend=False,fig size=(10,5),title=伦敦天气图)。血小板计数
df.plot的其他参数
df.plot(x,y,kind,figsize,title,grid,legend,style))。
x仅适用于dataframe对象。横坐标
y同上,纵坐标变量
各种类型的可视化地图,如折线图、历史图、条形图、柱形图、饼图、kde图、散点图等。
Figsize画布大小
标题
网格是否显示网格线。
传奇显示传奇?
图表的样式。
要查看绘图参数,请使用帮助。
importpandasaspdhelp(PD . data frame . plot))。
结束。
来源:大邓小平和他的蟒蛇
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。