深入浅出Pandas-利用Python进行数据处理与分析,python数据分析活用pandas库

  深入浅出Pandas:利用Python进行数据处理与分析,python数据分析活用pandas库

  本文从基本数据集读写、数据处理和数据帧操作三个方面展示了23个熊猫核心方法。有需要的朋友可以借鉴一下,希望能有所帮助。祝大家进步很大,早日升职加薪。

  00-1010基础数据集操作基础数据处理DataFrame Operation Pandas是一个Python软件库,它提供了大量的函数和方法,使我们能够快速方便地处理数据。总的来说,Pandas是让Python成为一个强大高效的数据分析环境的重要因素之一。

  Pandas是基于NumPy的库,可以理解为NumPy在数据处理上的加强版。同时,熊猫也是一个开源项目。它基于Cython,因此可以非常快速地读取和处理数据,还可以轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN)。

  本文中基础数据集操作主要介绍CSV和Excel的读写方法,基础数据处理主要介绍缺失值和特征提取,最后DataFrame操作主要介绍函数和排序方法。

  

目录

  1.读取CSV格式的数据集

  警察。DataFrame.from_csv("csv_file ")

  或者:

  pd.read_csv("csv_file ")

  2.读取Excel数据集

  pd.read_excel(excel_file )

  3.将数据帧直接写入CSV文件

  以下逗号用作不带索引的分隔符:

  df.to_csv(data.csv ,sep=,,index=False)

  4.基本数据集特征信息

  df.info()

  5.基本数据集统计

  print(df.describe())

  6.打印表格中的数据框

  将数据帧输出到表格:

  print(制表(print_table,headers=headers))

  当“print_table”是其中列表元素是新的列表时,“headers”是标题字符串的列表。

  7.列出所有列的名称

  df.columns

  

基本数据集操作

  8.删除丢失的数据。

  df.dropna(axis=0,how=any )

  返回一个数据帧,其中删除了包含任何NaN值的给定轴。选择how=“all”将删除所有元素都为NaN的给定轴。

  9.替换丢失的数据。

  df . replace(to _ replace=无,value=无)

  在数据帧中使用value值代替to_replace值,其中value和to_replace都要求我们给出不同的值。

  10.检查空值NaN。

  pd.isnull(对象)

  检查缺少的值,即数值数组中的NaN和目标数组中的None/NaN。

  1.删除要素

  df.drop(特征变量名称,轴=1)

  选择轴0代表行,选择列。

  12.将目标类型转换为浮点类型。

  PD . to _ numeric(df[ feature _ name ],errors= constrate )

  将目标类型转换为数值,以供进一步计算,在本例中为字符串。

  13.将数据帧转换成NumPy数组

  df.as_matrix()

  14.在数据框前取“n”线。

  测向头(n)

  15.按要素名称获取数据。

  df . loc[功能名称]

  

基本数据处理

  16.使用数据帧上的函数。

  该函数将数据帧中“高度”行的所有值乘以2:

  df[高度]。应用(*lambda* height: 2 * height)

  或者:

  def multiply(x): return x * 2df[ height ]。应用(乘法)

  17.重命名该行。

  以下代码将DataFrame的第三行重命名为“size ”:

  df.rename(columns={!-{ C } & lt;-& gt;- df.columns[2]:size},inplace=True)

  18.以一行中的唯一实体为例。

  下面的代码将采用“名称”行的唯一实体:

  df[名称]。唯一()

  19.访问子数据帧

  以下代码将从DataFrame中提取选定的行“name”和“size ”:

  new_df=df[[名称,大小]]

  20.汇总数据信息。

  #数据框中值的总和

  df.sum()

  #数据帧的最低值

  df.min()

  #最高值

  df.max()

  #最低值的索引

  df.idxmin()

  #最高值的索引

  df.idxmax()

  #数据框架的统计摘要,包括四分位数、中位数等。

  df.describe()

  #平均值

  df.mean()

  #中值

  df.median()

  #列之间的相关性

  df.corr()

  #要只获取一列的这些值,只需像这样选择它#

  df[大小]。中位数()

  1.对数据进行排序。

  df.sort_values(升序=False)

  22.布尔索引

  以下代码筛选名为“size”的行,并仅显示值等于5的行:

  df[df[size]==5]

  23.选择一个特定值。

  以下代码将选择“size”列和第一行的值:

  df.loc([0],[size])

  以上是Python数据分析23熊猫核心操作方法总结的详细内容。更多关于Python熊猫数据分析的信息,请关注盛行IT软件开发工作室的其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: