python去重复的数据,python重复运算符
本文主要介绍python重复值处理的方法。文章围绕主题,详细介绍了内容,具有一定的参考价值。有需要的朋友可以参考一下。
前言:
如果你接触过数据分析,那么你可能都知道,最麻烦的就是数据录入过程中不可避免的会产生重复值、缺失值和异常值。python也为我们提供了一些处理这些值的方法。大家一起学习吧~
今天,先处理重复值,首先创建一个包含重复值的DataFrame,如下:
进口熊猫作为pd
数据=pd。DataFrame([[1,2],[1,2],[3,4]],列=[a , b])
打印(数据)
我们将其打印出来,结果如下:
可以看出,第一行和第二行是重复的。这里有少量数据,肉眼可以直接观察到。但是,如果有大量的数据,我们需要使用diplicated()函数进行查询。我们用它来检查上述数据的重复值。
data[data.duplicated()]
我们可以看到它打印出了索引为1的行。如果有3条相同的线呢?我们试试吧!
进口熊猫作为pd
数据=pd。DataFrame([[1,2],[1,2],[1,2],[3,4]],列=[a , b])
data[data.duplicated()]
其结果如下:
可以看出,除了第一个数据之外,将显示重复的项目。
如果我们想计算有多少行被重复,我们可以使用sum()函数,代码如下:.
data.duplicated()。总和()
在很多情况下,我们需要删除重复的数据。这时,我们可以使用drop_duplicated()函数。让我们试着删除重复的数据行!
data.drop_duplicated()
刚刚执行代码时出错。原来是重复的而不是复制的!
不过需要注意的是,用drop_duplicates()删除重复项不会影响数据的结构。如果你想改变数据的结构,你必须重新分配它。如果要删除某列的重复值,只需在括号中添加列名。
如下:
关于python重复值处理的这篇文章到此结束。有关python重复值的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。