pandas.dataframe,pandas中dataframe的数据描述方法

  pandas.dataframe,pandas中dataframe的数据描述方法

  DataFrame是熊猫中最常用的对象,类似于excel中的表格。读取数据后,数据将以DataFrame数据结构的形式存储在内存中。以下文章主要介绍了熊猫中DataFrame常用操作的相关信息,有需要的可以参考。

  00-1010前言1。基本用途:2。数据选择、删除、更新。3.操作。4.按操作分组。5.导出到csv文件进行汇总

  

目录

 

  Pandas是Python的下一个开源数据分析库,其数据结构DataFrame大大简化了数据分析过程中的一些繁琐操作。

  

前言

 

  创建一个数据框架。DataFrame是一个二维表格,你可以把它想象成一个Excel表单或者Sql表单。

  在Excel 2007和更高版本中,最大行数为1048576,最大列数为16384。对于超过这个大小的数据,Excel会弹出一个框“此文本包含多行文本,不能放在工作表上”。

  熊猫很容易处理数以千万计的数据。同时我们会看到,它的表达能力比SQL更强,可以做很多复杂的操作,要写的代码更少。说了很多它的好处,要实际感受一下,还得用代码。

  的第一项任务是创建数据帧,可以通过多种方式创建数据帧:

  列表,系列(熊猫。系列),numpy词典。二维数组。其他数据帧结构化记录(结构化数组)。其中我最喜欢的是通过二维ndaray创建数据帧,因为代码被敲的最少:

  进口熊猫作为pd

  将numpy作为np导入

  df=pd。DataFrame(np.random.randn(3,4))

  df

  0 1 2 3

  0 0.236175 - 0.394792 - 0.171866 0.304012

  1 0.651926 0.989046 0.160389 0.482936

  2 - 1.039824 0.401105 - 0.492714 - 1.220438

  当然,也可以将mysql数据库或csv文件中的数据加载到dataframe中。

  在dataframe中,index标识行,column标识列,shape表示维度。

  #获取行索引信息

  df .索引

  #获取列索引信息

  df.columns

  #获取df的大小

  df.shape

  #获取df的行数

  df.shape[0]

  #获取df的列数

  df.shape[1]

  #获取df中的值

  df.values

  通过describe方法,我们可以对df中的数据有一个大致的了解:

  df.describe()

  0 1 2 3

  计数3.000000 3.000000 3.000000 3.000000

  平均值为-0.050574-0.331786-0.16864-0.144444466

  标准0.881574 0.694518 0.3266863686

  最小值为1.039824-0.394792-0.49277149

  25 % - 0.401824 0.003156 - 0.332290 - 0.458213

  50 % 0.236175 0.401105 - 0.171866 0.304012

  75 % 0.444051 0.695076 - 0.005739 0.393474

  最大值0.651926 0.989046 0.16039 0.482536336

  

1. 基本使用:

 

  根据列名选择:

  df[ 0 ]

  0 0.236175

  1 0.651926

  2 - 1.039824

  按行号选择:

  选择前3行

  根据索引选择:

  df.loc[ 0 ]

  0 0.236175

  1 - 0.394792

  2 - 0.171866

  3 0.304012

  按行数和列数选择:

  Df.iloc[ 3] #选择第3行

  Df.iloc[ 2 : 4] #选择第2至3行

  Df.iloc[ 0,1] #选择第0行第1列中的元素

  Dat.iloc[: 2, 3] #选择从第0行到第1行以及从第0列到第2列范围内的元素。

  1.dfiloc [[1,3,5],[1,3]] #选择第1、3、5行和第1、3列区域中的元素。

  删除列:

  del df[0]

  df

  1 2 3

  0 - 0.394792 - 0.171866 0.304012

  1 0.989046 0.160389 0.482936

  2 0.401105 - 0.492714 - 1.220438

  删除一行:

  五

  df.drop(0)

  1 2 3

  1 0.989046 0.160389 0.482936

  2 0.401105 - 0.492714 - 1.220438

  

2. 数据select, del, update。

 

  基本操作:

  df[ 4 ]=df[ 1 ] df[ 2 ]

  1 2 3 4

  0 - 0.394792 - 0.171866 0.304012 - 0.566659

  1 0.989046 0.160389 0.482936 1.149435

  2 0.401105 - 0.492714 - 1.220438 - 0.091609

  地图操作,有点类似于python中的地图:

  df[ 4 ]。地图(整数)

  0 0

  1 1

  2 0

  应用操作:

  df。应用(总和)

  1 0.995359

  2 - 0.504192

  3 - 0.433489

  4 0.491167

  

3.运算。

 

  熊猫里的分组操作是我最喜欢的。无需将数据导入excel或mysql,即可进行灵活的分组操作,简化了分析过程。

  df[ 0 ]=[ A , A , B ]

  df

  1 2 3 4 0

  0-0.394792-0.171866 0.304012-0.566659 A

  1 0.989046 0.160389 0.48261.149435 A

  2 0.401105-0.492714-1.220438-0.091609 B

  g=df.groupby([ 0 ])

  g.size()

  A 2

  B 1

  g.总和()

  1 2 3 4

  0

  一个0.594254-0.011478 0.7865858256

  b 0.401105-0.492714-1.220438537

  

4. Group by 操作。

 

  使用to_csv方法可以很容易地将数据帧导出为csv文件。如果数据包含中文,一般编码指定为“UTF-8”,否则程序在导出时会因为无法识别对应的字符串而抛出异常。如果index被指定为False,则意味着不需要导出dataframe的索引数据。

  df.to_csv(文件路径,编码=utf-8 ,索引=False)

  文件路径,索引=假

  

5. 导出到csv文件

 

  关于熊猫中数据帧操作的这篇文章到此为止。关于熊猫DataFrame操作的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: