python 预处理,python数据集的预处理

  python 预处理,python数据集的预处理

  大家好,本文主要讲Python数据预处理的五种常用技术。有兴趣的同学过来看看,如果对你有帮助,记得收藏。

  00-1010有序数据集示例1示例2示例3示例4示例5摘要

  

目录

  我们知道,数据是一种宝贵的资产,近年来呈指数级增长。但是原始数据不能马上使用,需要大量的清理和转换。

  Pandas是Python的数据分析和操作库。它有多种方法和功能来清理数据。在这篇文章中,我将做五个例子来帮助你掌握数据清理技巧。

  

前言

  这是一个包含脏数据的样本数据框。

  让我们看看可以做些什么来清理这个数据集。

  第一列是多余的,应删除;

  日期没有标准;

  姓名写为姓,名,有大小写字母;

  付款代表一个数量,但它们显示为字符串,需要处理;

  注意,有些非字母数字字符应该删除;

  

数据集

  使用drop函数删除列是一个简单的操作。除了写入列名,我们还需要指定轴参数的值,因为drop函数用于删除行和列。最后,我们可以使用inplace参数来保存更改。

  进口熊猫作为pd

  df.drop(Unnamed: 0 ,axis=1,inplace=True)

  

示例 1

  我们有许多选项可以将日期值转换成适当的格式。一种更简单的方法是使用astype函数来更改列的数据类型。

  它可以处理各种各样的值,并将它们转换成简洁的标准日期格式。

  df[日期]=df[日期]。astype(datetime64[ns])

  

示例 2

  关于名称列,我们首先需要解决以下问题:

  首先,我们要用全部大写或小写字母来表示。另一种选择是将它们大写(即只有首字母大写);

  切换姓氏和名字的顺序;

  df[Name].str.split(,,expand=True)

  然后,我将第二列与第一列合并,中间留一个空格。最后一步是使用lower函数将字母转换成小写。

  df[ Name ]=(df[ Name ]). str . split(,,expand=True)[1] df[ Name ]. str . split(,,expand=True)[0]).str.lower()

  

示例 3

  付款的数据类型不能用于数值分析。在将其转换为数字数据类型(即整数或浮点数)之前,我们需要删除美元符号,并将第一行中的逗号替换为点。

  我们可以用熊猫在一行代码中完成所有这些操作

  df[付款]=df[付款]。str[1:].str.replace(,,.).astype(float )

  

示例 4

  注释栏中的一些字符也需要删除。当处理大型数据集时,可能很难手动替换它们。

  我们能做的就是删除非字母数字字符(比如?-,等。).在这种情况下,您还可以使用replace函数,因为它接受正则表达式。

  如果我们只需要字母字符,下面是我们如何使用替换函数:

  df[note].str.replace([^a-za-z],”)

  0不开心

  1满意

  2中性

  3不开心

  4中性

  名称:注意,数据类型:对象

  如果我们想要字母和数字(即字母数字),我们需要将数字添加到正则表达式中:

  df[note].str.replace([^a-za-z0-9],”)

  0不开心

  1满意

  2中性

  3不开心

  4中性0

  名称:注意,数据类型:对象

  请注意,最后一行的0这次没有删除,我只需要选择第一个选项。如果我在删除非字母数字字符后仍想将字母转换成小写

  df[ note ]=df[note].str.replace([^a-za-z], ). str.lower()

  与最初的形式相比,数据集看起来好多了。当然是简单的数据集,但是在处理大型数据集的时候,这些清理操作一定会对你有所帮助。

  

示例 5

  关于Python数据预处理的五种常见技术的文章到此结束。有关Python数据预处理的更多信息,请搜索流行的IT软件开发工作室以前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: