pandas教程 菜鸟教程,pandas使用详细教程

  pandas教程 菜鸟教程,pandas使用详细教程

  来源:机器之心

  Python是开源的。很棒,但是开源的一些固有问题是不可避免的。许多软件包正在做(或试图做)同样的事情。如果您是Python初学者,很难知道哪个包最适合特定的任务。需要经验的人会告诉我。你肯定需要一个数据科学的软件包。那是潘大。

  熊猫brdyb的地方就是藏了很多包的地方。这是核心包,有很多其他包的功能。这真是太棒了。因为只要用熊猫就可以工作。

  熊猫相当于擅长python。您可以使用表格(即dataframe)对数据执行各种转换,但还有许多其他功能。

  如果你已经熟悉python的用法,可以跳到第三段。

  让我们开始吧:

  不要问为什么importpandasaspd是“pd”而不是“P”。就是这样。就用吧:)

  http://www。Sina.com/http://www.Sina.com/

  http://www。Sina.com/http://www.Sina.com/

  DATA=PD.read_CSV(my_file。CSV ) DATA=PD.read_CSV(my_file。CSV,sep=;Encoding=latin-1,nrows=1000,skiprows=[2,5]) Sep表示分隔符。如果使用法语数据,excel的csv分隔符为“;中描述的地块用于在概念设计中分析体量的外部表面积。将编码设置为latin-1以读取法语字符。Nrows=1000表示读取前1000行数据。SipRows=[2,5]表示读取文件时删除第二行和第五行。

  最常用的函数:read_csv,read_excel

  其他精彩功能:read_clipboard,read_sql

  http://www。Sina.com/http://www.Sina.com/

  DATA.to_CSV(我的_新_文件。CSV,index=None) index=None表示数据按原样写入。如果未写入index=None,则第一列1、2、3将增加1,并一直持续到最后一行。

  我通常不使用其他功能,如。to_excel,to_json,to_pickle等。因为。to_csv可以很好的处理工作,csv是保存表格最常用的方法。

  http://www。Sina.com/http://www.Sina.com/

  给出(行数和列数)给出行数和列数

  Data.describe()计算基本统计数据

  http://www。Sina.com/http://www.Sina.com/

  打印前三行数据。head(3)数据。同样,tail()对应最后一行数据。

  打印data.loc[8]行

  Data.loc[8,column_1]在第八行打印名为 column_1 的行。

  Data.loc [range (4 4,6)]从第四行到第六行的数据子集(左闭右开)

  http://www。Sina.com/http://www.Sina.com/

  http://www。Sina.com/http://www.Sina.com/

  data[data[column _ 1]==French]data[(data[column _ 1]==French)][data[year _ born]==1990]]data

  数据[数据[列_ 1]。在[法语、英语]中,您可以在同一列中使用多个或,也可以使用。isin函数。

  http://www。Sina.com/http://www.Sina.com/

  Matplotlib软件包可以实现这个功能。介绍中提到,可以直接用在熊猫身上。

  数据[列号

  cal ]。绘图()

  ()的示例。plot()输出

  数据[列_数字]。hist()绘制数据分布图(直方图)

  的例子。历史()输出

  %matplotlibinline如果你用的是Jupyter,画图前别忘了添加上面的代码。

  更新数据

  Data.loc[8,column_1 ]=english将第八行中名为column_1的列替换为“English”data . loc[data[column _ 1]==French,column _ 1]=French在一行代码中更改多列的值。

  好了,现在你可以做一些在excel中容易访问的东西了。下面我们来深入探讨一些excel中无法实现的惊人操作。

  中级函数

  统计出现的次数

  数据[列_1 ]。值计数()

  的输出示例。value counts()函数

  在所有的行、列或者全数据上进行操作

  数据[列_1 ]。map(len) len()函数应用于列“column_1”中的每个元素

  的。map()操作将函数应用于列中的每个元素。

  数据的一个好函数[column _ 1]。地图(len)。地图(lambdax: x/100)。plot () pandas是链式方法(https://to maugspurger . github . io/method-chaining)。它可以帮助您执行多个操作(。map()和。plot())在一行中更加简单高效。

  Data.apply(sum)。apply()将函数应用于列。applymap()将函数应用于DataFrame中的所有单元格。

  tqdm, 唯一的

  在处理大规模数据集时,熊猫会花一些时间去做。map(),apply(),applymap()等等。Tqdm是一个包,可以用来帮助预测这些操作的执行何时完成(是的,我撒谎了,我之前说过我们只会用熊猫)。

  froqdmportqdm _ Notebook tqdm _ Notebook()。Panda()用Panda设置TQDM

  数据[列_ 1]。progress_map (lambdax: x.count (e))它类似于replace。map(),应用()和。使用applymap()。progress _ map()。

  在Jupyter中使用tqdm和pandas获得的进度条

  相关性和散射矩阵

  data.corr()数据。apply map(lambdax:int(x * 100)/100)。corr()给出了相关矩阵。

  PD . plotting . scatter _ matrix(data,figsize=(12,8))

  散布矩阵的例子。它在同一个图片中绘制两列的所有组合。

  pandas 中的高级操作

  The SQL 关联

  在熊猫身上实现联想非常非常简单。

  Data.merge (other _ data,on=[column _ 1,column _ 2,column _ 3])关联三列只需要一行代码。

  分组

  一开始没那么简单。你需要先掌握语法,然后你会发现你一直在用这个功能。

  data . group by(column _ 1)[column _ 2]。应用(总和)。Reset _ index()按一列分组,选择另一列执行函数。reset_index()将把数据重组到一个表中。

  如前所述,为了优化代码,将函数连接在一行中。

  行迭代

  Dictionary={} fori,row in data . iteraws():dictionary[row[column _ 1]]=row[column _ 2]。iteraws()使用两个变量一起循环:行索引和行的数据(I和上面的行)。

  总而言之,pandas 是 python 成为出色的编程语言的原因之一

  我本可以展示更多有趣的熊猫函数,但我所写的足以让人明白为什么数据科学家离不开熊猫。综上所述,熊猫有以下优点:

  易于使用,将所有复杂和抽象的计算隐藏在背后;

  直观;

  快,如果不是最快的,也是非常快的。

  它帮助数据科学家快速阅读和理解数据,提高工作效率。

  原文链接:3359 towards data science . com/be-a-more-efficient-data-scientist-today-master-pandas-with the-guide-ea 362d 27386

  -结束-

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: