总结Python数据分析常用类库,python数据分析用什么数据库

  总结Python数据分析常用类库,python数据分析用什么数据库

  本文使用Pandas库演示了Python的常见操作。分享给你,供你参考,如下:

  1.概观

  Pandas是Python的核心数据分析支持库,提供了快速、灵活、清晰的数据结构,旨在简单直观地处理关系型和标记型数据。Pandas通常用于处理带有行和列标签的矩阵数据以及类似于SQL或Excel表格的表格数据。应用于金融、统计、社会科学、工程等领域的数据排序与清洗、数据分析与建模、数据可视化与制表。

  数据类型:Pandas不改变原始输入数据,而是复制数据生成新对象。由普通对象组成的一维数组变成了数列,由数列组成的二维数组表称为DataFrame,其行称为index,列为column。

  安装:如果使用anaconda集成环境,将自动安装numpy、scipy和pandas等数据科学包,也可以通过python包管理工具安装pandas:

  pip安装熊猫

  2.数据对象的创建

  可以通过用Series()函数包装一维数组来创建Series对象,其中数组的元素可以是各种类型。

  用DataFrame()函数包装二维数组可以创建DataFrame对象,行标签和列标签可以由参数index和columns指定。也可以通过python的字典类型初始化DataFrame,默认情况下它的键名是column label。

  进口熊猫作为pd

  将numpy作为np导入

  #通过一维数组初始化序列

  s=pd。系列([1,2.0,np.nan,测试])

  印刷品

  #通过二维数组初始化数据帧

  arr=np.random.randn(6,4)

  arr_df=pd。DataFrame(arr,index=np.arange(1,7),columns=list(ABCD ))

  打印(数组方向)

  #通过字典dict初始化数据帧

  dic={A: 1。

  b:PD。时间戳( 20130102 ),

  C: pd。Series(1,index=list(range(4)),dtype=float32 ),

  D: np.array([3] * 4,dtype=int32 ),

  e:PD。分类([测试,训练,测试,训练])

  }

  dic_df=pd。数据帧

  打印(dic_df)

  运行结果如下:

  #系列数据

  0 1

  1 2

  2南

  3测试

  dtype:对象

  #二维数组的数据帧

  A B C D

  1 -0.085417 -0.816502 1.495134 -0.277742

  2 1.657144 -0.203346 0.631930 -1.182239

  3 -2.303923 -0.535696 1.315379 0.129682

  4 0.133198 -0.239664 -2.004494 0.119965

  5 -1.454717 2.114255 -0.538678 -0.580361

  6 -0.759183 0.141554 -0.243270 2.840325

  #字典数据框架

  A B C D E

  0 1.0 2013-01-02 1.0 3测试

  1 1.0 2013-01-02 1.0 3火车

  2 1.0 2013-01-02 1.0 3测试

  3 1.0 2013-01-02 1.0 3火车

  3.检查数据

  函数head(n)可以查看数据帧的前n行的数据,tail(n)可以查看后n行的数据。

  Index()查看数据帧的行标签,列显示列标签。

  Describe()按列显示数据的统计信息,包括计数、均值、方差、最小值和最大值等。

  函数mean()显示所有列的平均值,mean(1)显示所有行的平均值。

  Sum()对所有列进行平均,sum(1)对所有行进行平均。

  DataFrame有一个empty属性来判断是否为空,如果为空,则返回True。

  arr=np.random.randn(6,4)

  df=pd。DataFrame(arr,index=np.arange(1,7),columns=list(ABCD ))

  打印(df.head(3))

  打印(df.index)

  print(df.describe())

  结果如下

  #查看前三行数据

  A B C D

  1 3.260449 -0.619396 0.070877 1.586914

  2 -0.529708 0.071917 -1.919316 1.845727

  3 -1.005765 2.176579 -0.323483 -1.295067

  #查看行标签

  Int64Index([1,2,3,4,5,6],dtype=int64 )

  #查看统计数据

  A B C D

  计数6.000000 6.000000 6.000000 6.000000

  平均值为-0.184606-0.487184 0.07943 0.855858581

  标准1.721394 1.800460 1.3258658561

  最小为1.443635-3.091446-1.919195436

  25% -0.967105 -1.430192 -0.281188 0.778729

  50% -0.694488 -0.273739 -0.041713 1.150944

  75% -0.531744 0.197755 0.355731 1.508475

  最大值为3.260449 2.176579 2.3553543656

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: