pandas操作csv文件,pandas读取csv文件

  pandas操作csv文件,pandas读取csv文件

  来源:机器之心

  Python是开源的。很棒,但是开源的一些固有问题是不可避免的。许多软件包正在做(或试图做)同样的事情。如果您是Python初学者,很难知道哪个包最适合特定的任务。需要经验的人会告诉我。你肯定需要一个数据科学的软件包。那是潘大。

  熊猫在果汁方面的成就是里面藏了很多袋子。这是核心包,有很多其他包的功能。这真是太棒了。因为只要用熊猫就可以工作。

  熊猫相当于擅长python。您可以使用表格(即dataframe)对数据执行各种转换,但还有许多其他功能。

  如果你已经熟悉python的用法,可以跳到第三段。

  让我们开始吧:

  不要问为什么importpandasaspd是“pd”而不是“P”。就是这样。就用吧:)

  http://www。Sina.com/http://www.Sina.com/

  http://www。Sina.com/http://www.Sina.com/

  DATA=PD.read_CSV(my_file。CSV ) DATA=PD.read_CSV(my_file。CSV,sep=;Encoding=latin-1,nrows=1000,skiprows=[2,5]) Sep表示分隔符。如果使用法语数据,excel的csv分隔符为“;中描述的地块用于在概念设计中分析体量的外部表面积。将编码设置为latin-1以读取法语字符。Nrows=1000表示读取前1000行数据。SipRows=[2,5]表示读取文件时删除第二行和第五行。

  最常用的函数:read_csv,read_excel

  其他精彩功能:read_clipboard,read_sql

  http://www。Sina.com/http://www.Sina.com/

  DATA.to_CSV(我的_新_文件。CSV,index=None) index=None表示数据按原样写入。如果未写入index=None,则第一列1、2、3将增加1,并一直持续到最后一行。

  我通常不使用其他功能,如。to_excel,to_json,to_pickle等。因为。to_csv可以很好的处理工作,csv是保存表格最常用的方法。

  http://www。Sina.com/http://www.Sina.com/

  给出(行数和列数)给出行数和列数

  Data.describe()计算基本统计数据

  http://www。Sina.com/http://www.Sina.com/

  打印前三行数据。head(3)数据。同样,tail()对应最后一行数据。

  打印data.loc[8]行

  Data.loc[8,column_1]在第八行打印名为 column_1 的行。

  Data.loc [range (4 4,6)]从第四行到第六行的数据子集(左闭右开)

  http://www。Sina.com/http://www.Sina.com/

  http://www。Sina.com/http://www.Sina.com/

  data[data[column _ 1]==French]data[(data[column _ 1]==French)][data[year _ born]==1990]]data

  数据[数据[列_ 1]。在[法语、英语]中,您可以在同一列中使用多个或,也可以使用。isin函数。

  http://www。Sina.com/http://www.Sina.com/

  Matplotlib软件包可以实现这个功能。介绍中提到,可以直接用在熊猫身上。

  数据[列_数字]。情节(

  ().绘图)输出示例

  数据[列_数字]。hist()绘制数据分布(直方图)。hist(输出示例

  %matplotlibinline如果您使用

  Jupyter,画图前别忘了加上面的代码。更新数据

  Data.loc[8,column_1 ]=english将第八行中名为column_1的列替换为“English”data . loc[data[column _ 1]==French,column _ 1]=French在一行代码中更改多列的值。

  好了,现在你可以做一些在excel中容易访问的东西了。下面我们来深入探讨一些excel中无法实现的惊人操作。

  中级函数

  统计出现的次数

  数据[列_1 ]。值计数()

  的输出示例。value counts()函数

  在所有的行、列或者全数据上进行操作

  数据[列_1 ]。map(len) len()函数应用于列“column_1”中的每个元素

  的。map()操作将函数应用于列中的每个元素。

  数据的一个好函数[column _ 1]。地图(len)。地图(lambdax: x/100)。plot () pandas是链式方法(https://to maugspurger . github . io/method-chaining)。它可以帮助您执行多个操作(。map()和。plot())在一行中更加简单高效。

  Data.apply(sum)。apply()将函数应用于列。applymap()将函数应用于DataFrame中的所有单元格。

  tqdm, 唯一的

  在处理大规模数据集时,熊猫会花一些时间去做。map(),apply(),applymap()等等。Tqdm是一个包,可以用来帮助预测这些操作的执行何时完成(是的,我撒谎了,我之前说过我们只会用熊猫)。

  froqdmportqdm _ Notebook tqdm _ Notebook()。Panda()用Panda设置TQDM

  数据[列_ 1]。progress_map (lambdax: x.count (e))它类似于replace。map(),应用()和。使用applymap()。progress _ map()。

  在Jupyter中使用tqdm和pandas获得的进度条

  相关性和散射矩阵

  data.corr()数据。apply map(lambdax:int(x * 100)/100)。corr()给出了相关矩阵。

  PD . plotting . scatter _ matrix(data,figsize=(12,8))

  散布矩阵的例子。它在同一个图片中绘制两列的所有组合。

  pandas 中的高级操作

  The SQL 关联

  在熊猫身上实现联想非常非常简单。

  Data.merge (other _ data,on=[column _ 1,column _ 2,column _ 3])关联三列只需要一行代码。

  分组

  一开始没那么简单。你需要先掌握语法,然后你会发现你一直在用这个功能。

  data . group by(column _ 1)[column _ 2]。应用(总和)。Reset _ index()按一列分组,选择另一列执行函数。reset_index()将把数据重组到一个表中。

  如前所述,为了优化代码,将函数连接在一行中。

  行迭代

  Dictionary={} fori,row in data . iteraws():dictionary[row[column _ 1]]=row[column _ 2]。iteraws()使用两个变量一起循环:行索引和行的数据(I和上面的行)。

  总而言之,pandas 是 python 成为出色的编程语言的原因之一

  我本可以展示更多有趣的熊猫函数,但我所写的足以让人明白为什么数据科学家离不开熊猫。综上所述,熊猫有以下优点:

  易于使用,将所有复杂和抽象的计算隐藏在背后;

  直观;

  快,如果不是最快的,也是非常快的。

  它帮助数据科学家快速阅读和理解数据,提高工作效率。

  原始链接:

  https://towards data science . com/be-a-more-efficient-data-scientist-town-master-pandas-with this-guide-ea 362d 27386

  先前的建议

  善待“老黄牛”!

  网页长截图就是这么简单。

  Jmeter如何获取token?

  漂亮的桌子

  2020年100大推荐公用事业!

  FastApi-01-第一次会议

  FastApi-02-路径参数

  FastApi-03-查询参数

  FastApi-04-请求正文-1

  FastApi-05-请求正文-2

  FastApi-06-请求正文-3

  FastApi-07-查询参数验证

  FastApi-08-路径参数验证

  FastApi-09-模型嵌套

  FastApi-10-示例

  FastApi-11-模板渲染

  FastApi-12表单表单

  这篇文章在这里看起来更好。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: