Python可视化创建图表示例,python做可视化数据图表

  Python可视化创建图表示例,python做可视化数据图表

  数据可视化是指以图形或表格的形式呈现数据。图表可以清楚地显示数据的性质以及数据或属性之间的关系。本文分享几个Python数据可视化绘图的例子,有兴趣的可以看看。

  00-1010使用可视化来探索图表1。数据可视化和探索图2。常用图表实例数据探索与实战分享1.2013美国社区调查2。波士顿房屋数据集

  

目录

  

利用可视化探索图表

  数据可视化是指以图形或表格的形式呈现数据。图表可以清楚地显示数据的性质,以及数据或属性之间的关系,并且可以很容易地被人们所理解。用户可以通过探索图了解数据的特征,发现数据的趋势,降低理解数据的门槛。

  

1.数据可视化与探索图

  本章主要是用熊猫来画图,而不是用Matplotlib模块。事实上,Pandas已经将Matplotlib的绘制方法集成到DataFrame中,因此在实际应用中,用户无需直接引用Matplotlib即可完成绘制。

  1.折线图

  折线图是最基本的图表,可以用来表示不同领域的连续数据之间的关系。Plot.line()用于绘制折线图。您可以设置颜色和形状等参数。在使用中,拆线图的绘制方法完全继承了Matplotlib的用法,所以程序最终必须调用plt.show()生成一个图,如图8.4所示。

  df _ iris[[ sepallength(cm)]]. plot . line()

  plt.show()

  ax=df[[ sepallength(cm)]]. plot . line(color= green ,title=Demo ,style= -)

  ax.set(xlabel=index ,ylabel=length )

  plt.show()

  2.散布图

  散点图用于查看不同领域的离散数据之间的关系。散点图是用df.plot.scatter()绘制的,如图8.5所示。

  df=df_iris

  df . plot . scatter(x= sepal length(cm),y=sepalwidth(cm))

  frommatplotlibimporttcm

  cmap=cm.get_cmap(Spectral )

  df.plot.scatter(x=分离长度(厘米),

  y=sepalwidth(cm),

  s=df[[拍长(厘米)]]*20,

  c=df[目标],

  cmap=cmap,

  title= differentcirclesizebypetallength(cm))

  3.直方图、长条图

  直方图通常用于同一领域,以显示连续数据的分布情况。另一种类似直方图的图表是条形图,用于查看同一字段,如图8.6所示。

  df[[sepallength(cm), sepalwidth(cm), petallength(cm), petalwidth(cm)]]]. plot . hist()

  2df.target.value_counts()。

  4. 圆饼图、箱形图

  饼图可用于查看同一字段中类别的比例,而盒图可用于查看同一字段中数据的分布差异或比较不同字段,如图8.7所示。

  df.target.va

  lue_counts().plot.pie(legend=True)

  df.boxplot(column=[target],figsize=(10,5))

  

  

  

数据探索实战分享

  本节利用两个真实的数据集实际展示数据探索的几种手法。

  

  

1.2013年美国社区调查

  在美国社区调查(American Community Survey)中,每年约有 350 万个家庭被问到关于他们是谁及他们如何生活的详细问题。调查的内容涵盖了许多主题,包括祖先、教育、工作、交通、互联网使用和居住。

  数据来源

  数据名称:2013 American Community Survey。

  先观察数据的样子与特性,以及每个栏位代表的意义、种类和范围。

  

# 读取数据

  df = pd.read_csv("./ss13husa.csv")

  # 栏位种类数量

  df.shape

  # (756065,231)

  # 栏位数值范围

  df.describe()

  先将两个 ss13pusa.csv 串连起来,这份数据总共包含 30 万笔数据,3 个栏位:SCHL ( 学历,School Level)、 PINCP ( 收入,Income) 和 ESR ( 工作状态,Work Status)。

  

pusa = pd.read_csv("ss13pusa.csv") pusb = pd.read_csv("ss13pusb.csv")

  # 串接两份数据

  col = [SCHL,PINCP,ESR]

  df[ac_survey] = pd.concat([pusa[col],pusb[col],axis=0)

  依据学历对数据进行分群,观察不同学历的数量比例,接着计算他们的平均收入。

  

group = df[ac_survey].groupby(by=[SCHL]) print(学历分布: + group.size())

  group = ac_survey.groupby(by=[SCHL]) print(平均收入: +group.mean())

  

  

2.波士顿房屋数据集

  波士顿房屋数据集(Boston House Price Dataset)包含有关波士顿地区的房屋信息, 包 506 个数据样本和 13 个特征维度。

  数据来源

  数据名称:Boston House Price Dataset。

  先观察数据的样子与特性,以及每个栏位代表的意义、种类和范围。

  可以用直方图的方式画出房价(MEDV)的分布,如图 8.8 所示。

  

df = pd.read_csv("./housing.data")

  # 栏位种类数量

  df.shape

  # (506, 14)

  #栏位数值范围df.describe()

  import matplotlib.pyplot as plt 

  df[[MEDV]].plot.hist() 

  plt.show()

  

  注:图中英文对应笔者在代码中或数据中指定的名字,实践中读者可将它们替换成自己需要的文字。

  接下来需要知道的是哪些维度与房价关系明显。先用散布图的方式来观察,如图8.9所示。

  

# draw scatter chart 

  df.plot.scatter(x=MEDV, y=RM) .

  plt.show()

  

  最后,计算相关系数并用聚类热图(Heatmap)来进行视觉呈现,如图 8.10 所示。

  

# compute pearson correlation 

  corr = df.corr()

  # draw  heatmap 

  import seaborn as sns 

  corr = df.corr() 

  sns.heatmap(corr) 

  plt.show()

  

  颜色为红色,表示正向关系;颜色为蓝色,表示负向关系;颜色为白色,表示没有关系。RM 与房价关联度偏向红色,为正向关系;LSTAT、PTRATIO 与房价关联度偏向深蓝, 为负向关系;CRIM、RAD、AGE 与房价关联度偏向白色,为没有关系。

  以上就是Python数据可视化绘图实例详解的详细内容,更多关于Python数据可视化的资料请关注盛行IT软件开发工作室其它相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: