python实现数据清洗,python数据清洗是什么意思

  python实现数据清洗,python数据清洗是什么意思

  一、为什么要清理数据?二、数据清洗的步骤三、完成功能四、数据清洗内容其他内容学习。

  一、为什么要清理数据?

  数据清洗本质上就是将实际业务问题中的脏数据清洗掉,转化为‘干净数据’。所谓脏数据,是指数据可能存在以下问题(主要问题):

  1.数据不完整:属性值为空;

  2.数据噪声(Nosiy):数据值不合理;

  3.数据不一致:前后矛盾;

  4.数据冗余:数据量或数量超过数据分析需要的情况;

  5.离群值:偏离大多数值。

  6.数据重复:多次出现的数据;

  2.数据清理步骤1。数据采集,使用read_csv或read _ excel

  2.数据探索,使用形状、描述或信息功能;

  3.行列操作,使用loc或iloc函数;

  4.数据整合,整理不同的数据源;

  5.数据类型转换,转换不同字段的数据类型;

  6.分组汇总,计算各维度的数据;

  7.处理重复值、缺失值和异常值以及数据的离散化;

  三、功能全集1。数据集成:mearge,concat;

  2.日期格式转换:pd.to _ datetime

  3.字符串操作:str函数;

  4.数据类型转换:astype;

  5.高级数据处理:应用和映射:

  6.创建一个分组对象:Groupby;

  7.透视表:pd.pivot _ table;交叉表:pd.crosstab

  8.分组对象和agg一起使用来统计所需的信息。

  四、数据清洗内容1。选择一个子集;

  2.重命名该列;

  3.缺失数据处理;

  4.数据类型的转换;

  5.字符串处理;

  6.时间和日期的处理;

  7.整理数据;

  8.异常值的处理

  其他内容学习Python数据清洗实用笔记3354介绍(1)NumpyPandas常用数据结构(2)Csv/Excel/mysql文件读写操作(3)数据表(过滤、添加、删除、检查、排序、层次索引)处理(4)数据日期/字符串/高级函数转换处理(5)数据统计(groupby/聚合函数agg/apply/透视表和交叉表)(6)数据预处理(重复值/异常值/数据离散化)(7)数据、笔记和思维导图课程整体github下载

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: