pandas操作csv文件,pandas读取csv文件
来源:机器之心
Python是开源的。很棒,但是开源的一些固有问题是不可避免的。许多软件包正在做(或试图做)同样的事情。如果您是Python初学者,很难知道哪个包最适合特定的任务。需要经验的人会告诉我。你肯定需要一个数据科学的软件包。那是潘大。
熊猫在果汁方面的成就是里面藏了很多袋子。这是核心包,有很多其他包的功能。这真是太棒了。因为只要用熊猫就可以工作。
熊猫相当于擅长python。您可以使用表格(即dataframe)对数据执行各种转换,但还有许多其他功能。
如果你已经熟悉python的用法,可以跳到第三段。
让我们开始吧:
不要问为什么importpandasaspd是“pd”而不是“P”。就是这样。就用吧:)
http://www。Sina.com/http://www.Sina.com/
http://www。Sina.com/http://www.Sina.com/
DATA=PD.read_CSV(my_file。CSV ) DATA=PD.read_CSV(my_file。CSV,sep=;Encoding=latin-1,nrows=1000,skiprows=[2,5]) Sep表示分隔符。如果使用法语数据,excel的csv分隔符为“;中描述的地块用于在概念设计中分析体量的外部表面积。将编码设置为latin-1以读取法语字符。Nrows=1000表示读取前1000行数据。SipRows=[2,5]表示读取文件时删除第二行和第五行。
最常用的函数:read_csv,read_excel
其他精彩功能:read_clipboard,read_sql
http://www。Sina.com/http://www.Sina.com/
DATA.to_CSV(我的_新_文件。CSV,index=None) index=None表示数据按原样写入。如果未写入index=None,则第一列1、2、3将增加1,并一直持续到最后一行。
我通常不使用其他功能,如。to_excel,to_json,to_pickle等。因为。to_csv可以很好的处理工作,csv是保存表格最常用的方法。
http://www。Sina.com/http://www.Sina.com/
给出(行数和列数)给出行数和列数
Data.describe()计算基本统计数据
http://www。Sina.com/http://www.Sina.com/
打印前三行数据。head(3)数据。同样,tail()对应最后一行数据。
打印data.loc[8]行
Data.loc[8,column_1]在第八行打印名为 column_1 的行。
Data.loc [range (4 4,6)]从第四行到第六行的数据子集(左闭右开)
http://www。Sina.com/http://www.Sina.com/
http://www。Sina.com/http://www.Sina.com/
data[data[column _ 1]==French]data[(data[column _ 1]==French)][data[year _ born]==1990]]data
数据[数据[列_ 1]。在[法语、英语]中,您可以在同一列中使用多个或,也可以使用。isin函数。
http://www。Sina.com/http://www.Sina.com/
Matplotlib软件包可以实现这个功能。介绍中提到,可以直接用在熊猫身上。
数据[列_数字]。情节(
().绘图)输出示例
数据[列_数字]。hist()绘制数据分布(直方图)。hist(输出示例
%matplotlibinline如果您使用
Jupyter,画图前别忘了加上面的代码。更新数据
Data.loc[8,column_1 ]=english将第八行中名为column_1的列替换为“English”data . loc[data[column _ 1]==French,column _ 1]=French在一行代码中更改多列的值。
好了,现在你可以做一些在excel中容易访问的东西了。下面我们来深入探讨一些excel中无法实现的惊人操作。
中级函数
统计出现的次数
数据[列_1 ]。值计数()
的输出示例。value counts()函数
在所有的行、列或者全数据上进行操作
数据[列_1 ]。map(len) len()函数应用于列“column_1”中的每个元素
的。map()操作将函数应用于列中的每个元素。
数据的一个好函数[column _ 1]。地图(len)。地图(lambdax: x/100)。plot () pandas是链式方法(https://to maugspurger . github . io/method-chaining)。它可以帮助您执行多个操作(。map()和。plot())在一行中更加简单高效。
Data.apply(sum)。apply()将函数应用于列。applymap()将函数应用于DataFrame中的所有单元格。
tqdm, 唯一的
在处理大规模数据集时,熊猫会花一些时间去做。map(),apply(),applymap()等等。Tqdm是一个包,可以用来帮助预测这些操作的执行何时完成(是的,我撒谎了,我之前说过我们只会用熊猫)。
froqdmportqdm _ Notebook tqdm _ Notebook()。Panda()用Panda设置TQDM
数据[列_ 1]。progress_map (lambdax: x.count (e))它类似于replace。map(),应用()和。使用applymap()。progress _ map()。
在Jupyter中使用tqdm和pandas获得的进度条
相关性和散射矩阵
data.corr()数据。apply map(lambdax:int(x * 100)/100)。corr()给出了相关矩阵。
PD . plotting . scatter _ matrix(data,figsize=(12,8))
散布矩阵的例子。它在同一个图片中绘制两列的所有组合。
pandas 中的高级操作
The SQL 关联
在熊猫身上实现联想非常非常简单。
Data.merge (other _ data,on=[column _ 1,column _ 2,column _ 3])关联三列只需要一行代码。
分组
一开始没那么简单。你需要先掌握语法,然后你会发现你一直在用这个功能。
data . group by(column _ 1)[column _ 2]。应用(总和)。Reset _ index()按一列分组,选择另一列执行函数。reset_index()将把数据重组到一个表中。
如前所述,为了优化代码,将函数连接在一行中。
行迭代
Dictionary={} fori,row in data . iteraws():dictionary[row[column _ 1]]=row[column _ 2]。iteraws()使用两个变量一起循环:行索引和行的数据(I和上面的行)。
总而言之,pandas 是 python 成为出色的编程语言的原因之一
我本可以展示更多有趣的熊猫函数,但我所写的足以让人明白为什么数据科学家离不开熊猫。综上所述,熊猫有以下优点:
易于使用,将所有复杂和抽象的计算隐藏在背后;
直观;
快,如果不是最快的,也是非常快的。
它帮助数据科学家快速阅读和理解数据,提高工作效率。
原始链接:
https://towards data science . com/be-a-more-efficient-data-scientist-town-master-pandas-with this-guide-ea 362d 27386
先前的建议
善待“老黄牛”!
网页长截图就是这么简单。
Jmeter如何获取token?
漂亮的桌子
2020年100大推荐公用事业!
FastApi-01-第一次会议
FastApi-02-路径参数
FastApi-03-查询参数
FastApi-04-请求正文-1
FastApi-05-请求正文-2
FastApi-06-请求正文-3
FastApi-07-查询参数验证
FastApi-08-路径参数验证
FastApi-09-模型嵌套
FastApi-10-示例
FastApi-11-模板渲染
FastApi-12表单表单
这篇文章在这里看起来更好。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。