pandas库的用法,pandas库的使用

  pandas库的用法,pandas库的使用

  熊猫图书馆参考资料

  Pandas是一个python第三方库,提供高性能且易于使用的数据类型和分析工具。

  进口熊猫作为pd

  Pandas基于Numpy,通常与Numpy和Matplotlib一起使用。

  了解熊猫图书馆

  两种数据类型:系列和数据框架

  基于上述数据类型的各种运算(基本运算、算术运算、特征运算和关联运算)

  熊猫图书馆系列

  系列类型可以由以下类型创建:

  1.python list,索引与列表元素数量一致。

  2.标量值,索引表示系列类型的大小

  3.python字典,键值对中的‘key’就是索引,index从字典中选择。

  can数组、索引和数据可以由n数组类型创建

  5.其他函数,range()函数等。

  系列类型的基本操作

  系列类型包括索引和值。

  系列类型的操作类似于ndarray类型。

  系列类型的操作类似于python字典类型。

  系列类型的操作类似n阵列类型:

  1.索引方法是相同的,使用[]

  2.2.numpy中的运算和操作可用于系列类型

  3.您可以对自定义索引列表进行切片。

  4.你可以通过自动索引切片。如果有自定义索引,它将被切片在一起。

  系列类型的操作类似于python字典类型:

  1.通过自定义索引访问

  2.操作中的保留字

  3.使用。get()方法

  Series是带有“label”的一维数组

  索引_0 -数据_a

  Series基本操作类似于ndarray和dictionary,根据索引对齐。

  数据帧类型可由以下类型创建:

  1.二维数组对象

  2.由一维数组、列表、字典、元组或序列组成的字典

  3.系列类型

  4.其他数据帧类型

  熊猫图书馆的数据类型操作

  重新索引

  的参数。reindex (index=无,columns=无,)

  索引,列新行和列自定义索引

  Fill_value在重新索引中,用于填充缺失位置的值。

  方法填充方法,ffill的当前值向前填充,bfill向后填充。

  限制最大灌装量

  Copy默认为true,生成一个新对象;如果是假的,新旧都不复制。

  索引类型的常用方法。append(idx)链接另一个索引对象以生成新的索引对象。diff(idx)计算差集并生成一个新的索引对象。交集(idx)计算交集。union(idx)计算联盟。delete(loc)删除loc位置的元素。insert(loc,e)在loc位置添加元素e。

  熊猫图书馆的数据类型操作

  算术算法

  算术运算基于行和列索引,完成后,算术运算默认生成浮点数。

  为缺少的项目填写NaN(空值)。

  并且广播操作在两个维度、一个维度、一个维度和零维度之间执行。

  带-*/符号的二元运算产生新对象。

  方法形式运算。add(d,**argws)类型之间的加法,可选参数。sub(d,**argws)类型之间的减法,可选参数。mul(d,**argws)类型之间的乘法,可选参数。div(d,**argws)类型之间的除法,可选参数

  比较算法

  比较只能比较具有相同索引的元素,没有完成。

  并且广播操作在两个维度、一个维度、一个维度和零维度之间执行。

  领养====!=和其他符号来生成布尔对象。

  熊猫的数据特征分析

  的。sort_values()方法根据指定轴上的值进行排序,默认为升序。

  Series.sort_values(轴=0,升序=真)

  DataFrame.sort_values(by,轴=0,升序=真)

  by:by:轴上的索引或索引列表

  基本统计分析功能

  适用于系列和数据帧类型。sum()计算数据的总和,在0轴上计算,下同。count()非NaN值的数量。平均值()。median()计算数据的算术平均值和算术中值。var()。std()计算数据的方差和标准差。最小()。max()计算数据的最小值和最大值。describe()0轴(列)的统计摘要

  适用于系列。argmin()。argmax()计算数据的最大值和最小值所在的索引位置(自动索引)。idxmin()。idxmax()计算数据的最大值和最小值所在的索引(用户定义的索引)

  累积分析功能

  适用于系列和数据框架类型,累积计算。cumsun()给出前1,2,n个数字依次。cumprod()给出前1,2,n个数字依次。cummax()给出前1、2、和n个数字。cummin()给出前1,2,n个数字依次。

  对于系列和数据框架类型,滚动计算(窗口计算)。滚动(w)。sum()依次计算相邻w个元素的和。滚动(w)。mean()依次计算相邻w个元素的算术平均值。滚动(w)。var()依次计算相邻w个元素的方差。滚动(w)。std()依次计算相邻w个元素的标准差。滚动(w)。最小()。max()依次计算相邻w个元素的最小值和最大值。

  数据的相关性分析

  两个东西,表示为X和Y,如何判断它们之间的存在相关性?

  相互关系

  1.x增加,Y增加,两个变量正相关。

  2.x增加,Y减少,两个变量负相关。

  3.x增加,Y忽略,两个变量不相关

  相关分析功能

  适用于系列和数据帧类型

  Cov()计算协方差矩阵。corr()计算相关系数矩阵,Pearson,Spearman,Kendall等系数。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: