pandas.dataframe,pandas中dataframe的数据描述方法
DataFrame是熊猫中最常用的对象,类似于excel中的表格。读取数据后,数据将以DataFrame数据结构的形式存储在内存中。以下文章主要介绍了熊猫中DataFrame常用操作的相关信息,有需要的可以参考。
00-1010前言1。基本用途:2。数据选择、删除、更新。3.操作。4.按操作分组。5.导出到csv文件进行汇总
目录
Pandas是Python的下一个开源数据分析库,其数据结构DataFrame大大简化了数据分析过程中的一些繁琐操作。
前言
创建一个数据框架。DataFrame是一个二维表格,你可以把它想象成一个Excel表单或者Sql表单。
在Excel 2007和更高版本中,最大行数为1048576,最大列数为16384。对于超过这个大小的数据,Excel会弹出一个框“此文本包含多行文本,不能放在工作表上”。
熊猫很容易处理数以千万计的数据。同时我们会看到,它的表达能力比SQL更强,可以做很多复杂的操作,要写的代码更少。说了很多它的好处,要实际感受一下,还得用代码。
的第一项任务是创建数据帧,可以通过多种方式创建数据帧:
列表,系列(熊猫。系列),numpy词典。二维数组。其他数据帧结构化记录(结构化数组)。其中我最喜欢的是通过二维ndaray创建数据帧,因为代码被敲的最少:
进口熊猫作为pd
将numpy作为np导入
df=pd。DataFrame(np.random.randn(3,4))
df
0 1 2 3
0 0.236175 - 0.394792 - 0.171866 0.304012
1 0.651926 0.989046 0.160389 0.482936
2 - 1.039824 0.401105 - 0.492714 - 1.220438
当然,也可以将mysql数据库或csv文件中的数据加载到dataframe中。
在dataframe中,index标识行,column标识列,shape表示维度。
#获取行索引信息
df .索引
#获取列索引信息
df.columns
#获取df的大小
df.shape
#获取df的行数
df.shape[0]
#获取df的列数
df.shape[1]
#获取df中的值
df.values
通过describe方法,我们可以对df中的数据有一个大致的了解:
df.describe()
0 1 2 3
计数3.000000 3.000000 3.000000 3.000000
平均值为-0.050574-0.331786-0.16864-0.144444466
标准0.881574 0.694518 0.3266863686
最小值为1.039824-0.394792-0.49277149
25 % - 0.401824 0.003156 - 0.332290 - 0.458213
50 % 0.236175 0.401105 - 0.171866 0.304012
75 % 0.444051 0.695076 - 0.005739 0.393474
最大值0.651926 0.989046 0.16039 0.482536336
1. 基本使用:
根据列名选择:
df[ 0 ]
0 0.236175
1 0.651926
2 - 1.039824
按行号选择:
选择前3行
根据索引选择:
df.loc[ 0 ]
0 0.236175
1 - 0.394792
2 - 0.171866
3 0.304012
按行数和列数选择:
Df.iloc[ 3] #选择第3行
Df.iloc[ 2 : 4] #选择第2至3行
Df.iloc[ 0,1] #选择第0行第1列中的元素
Dat.iloc[: 2, 3] #选择从第0行到第1行以及从第0列到第2列范围内的元素。
1.dfiloc [[1,3,5],[1,3]] #选择第1、3、5行和第1、3列区域中的元素。
删除列:
del df[0]
df
1 2 3
0 - 0.394792 - 0.171866 0.304012
1 0.989046 0.160389 0.482936
2 0.401105 - 0.492714 - 1.220438
删除一行:
五
df.drop(0)
1 2 3
1 0.989046 0.160389 0.482936
2 0.401105 - 0.492714 - 1.220438
2. 数据select, del, update。
基本操作:
df[ 4 ]=df[ 1 ] df[ 2 ]
1 2 3 4
0 - 0.394792 - 0.171866 0.304012 - 0.566659
1 0.989046 0.160389 0.482936 1.149435
2 0.401105 - 0.492714 - 1.220438 - 0.091609
地图操作,有点类似于python中的地图:
df[ 4 ]。地图(整数)
0 0
1 1
2 0
应用操作:
df。应用(总和)
1 0.995359
2 - 0.504192
3 - 0.433489
4 0.491167
3.运算。
熊猫里的分组操作是我最喜欢的。无需将数据导入excel或mysql,即可进行灵活的分组操作,简化了分析过程。
df[ 0 ]=[ A , A , B ]
df
1 2 3 4 0
0-0.394792-0.171866 0.304012-0.566659 A
1 0.989046 0.160389 0.48261.149435 A
2 0.401105-0.492714-1.220438-0.091609 B
g=df.groupby([ 0 ])
g.size()
A 2
B 1
g.总和()
1 2 3 4
0
一个0.594254-0.011478 0.7865858256
b 0.401105-0.492714-1.220438537
4. Group by 操作。
使用to_csv方法可以很容易地将数据帧导出为csv文件。如果数据包含中文,一般编码指定为“UTF-8”,否则程序在导出时会因为无法识别对应的字符串而抛出异常。如果index被指定为False,则意味着不需要导出dataframe的索引数据。
df.to_csv(文件路径,编码=utf-8 ,索引=False)
文件路径,索引=假
5. 导出到csv文件
关于熊猫中数据帧操作的这篇文章到此为止。关于熊猫DataFrame操作的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。