python 预处理,python数据集的预处理
大家好,本文主要讲Python数据预处理的五种常用技术。有兴趣的同学过来看看,如果对你有帮助,记得收藏。
00-1010有序数据集示例1示例2示例3示例4示例5摘要
目录
我们知道,数据是一种宝贵的资产,近年来呈指数级增长。但是原始数据不能马上使用,需要大量的清理和转换。
Pandas是Python的数据分析和操作库。它有多种方法和功能来清理数据。在这篇文章中,我将做五个例子来帮助你掌握数据清理技巧。
前言
这是一个包含脏数据的样本数据框。
让我们看看可以做些什么来清理这个数据集。
第一列是多余的,应删除;
日期没有标准;
姓名写为姓,名,有大小写字母;
付款代表一个数量,但它们显示为字符串,需要处理;
注意,有些非字母数字字符应该删除;
数据集
使用drop函数删除列是一个简单的操作。除了写入列名,我们还需要指定轴参数的值,因为drop函数用于删除行和列。最后,我们可以使用inplace参数来保存更改。
进口熊猫作为pd
df.drop(Unnamed: 0 ,axis=1,inplace=True)
示例 1
我们有许多选项可以将日期值转换成适当的格式。一种更简单的方法是使用astype函数来更改列的数据类型。
它可以处理各种各样的值,并将它们转换成简洁的标准日期格式。
df[日期]=df[日期]。astype(datetime64[ns])
示例 2
关于名称列,我们首先需要解决以下问题:
首先,我们要用全部大写或小写字母来表示。另一种选择是将它们大写(即只有首字母大写);
切换姓氏和名字的顺序;
df[Name].str.split(,,expand=True)
然后,我将第二列与第一列合并,中间留一个空格。最后一步是使用lower函数将字母转换成小写。
df[ Name ]=(df[ Name ]). str . split(,,expand=True)[1] df[ Name ]. str . split(,,expand=True)[0]).str.lower()
示例 3
付款的数据类型不能用于数值分析。在将其转换为数字数据类型(即整数或浮点数)之前,我们需要删除美元符号,并将第一行中的逗号替换为点。
我们可以用熊猫在一行代码中完成所有这些操作
df[付款]=df[付款]。str[1:].str.replace(,,.).astype(float )
示例 4
注释栏中的一些字符也需要删除。当处理大型数据集时,可能很难手动替换它们。
我们能做的就是删除非字母数字字符(比如?-,等。).在这种情况下,您还可以使用replace函数,因为它接受正则表达式。
如果我们只需要字母字符,下面是我们如何使用替换函数:
df[note].str.replace([^a-za-z],”)
0不开心
1满意
2中性
3不开心
4中性
名称:注意,数据类型:对象
如果我们想要字母和数字(即字母数字),我们需要将数字添加到正则表达式中:
df[note].str.replace([^a-za-z0-9],”)
0不开心
1满意
2中性
3不开心
4中性0
名称:注意,数据类型:对象
请注意,最后一行的0这次没有删除,我只需要选择第一个选项。如果我在删除非字母数字字符后仍想将字母转换成小写
df[ note ]=df[note].str.replace([^a-za-z], ). str.lower()
与最初的形式相比,数据集看起来好多了。当然是简单的数据集,但是在处理大型数据集的时候,这些清理操作一定会对你有所帮助。
示例 5
关于Python数据预处理的五种常见技术的文章到此结束。有关Python数据预处理的更多信息,请搜索流行的IT软件开发工作室以前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。