如何python筛选excel重复数据,
Excel操作解决方案不错!
当面对大量数据时,只需要点击工具栏就可以轻松筛选出需要的数据。
对于那些你不想要的无用数据,也可以搜索一下,一键去。
在那些我们不需要的数据中,有一大类叫做重复数据。
对于这种重复的数据,必须操作Excel的朋友会经常用到,所以Excel工具栏有专门针对重复数据删除的处理按钮,非常明显。
但是,如果您必须一直对大量Excel电子表格执行重复数据删除,该怎么办呢?
我不知道你怎么想的,但我不想像复读机一样生活。
所以我决定用Python来解决这个问题。
经过一系列的探索,我发现Python对Excel的去重操作也非常友好,因为里面有很多对应的函数可以去重。
当然,编程能力强的朋友甚至可以自己编写重复数据删除操作的个性化函数。
但是对于我这样的人来说。
调用第三方库是个好去处。
为了摆脱复读机的日子,我决定用Python的第三方库——pandas对Excel进行去重。重新手术不难。使用python简单地在Excel中重新操作指定的工作表。
首先,它是最简单的重复数据删除,没有任何技术壁垒。打开要用pandas进行重复数据删除的Excel表后,可以输入函数drop_duplicates()只保留一个重复值并删除其他重复值。
如果你想更高级,这里也有可以部署的参数。
没错,只需要在drop_duplicates()中操作,在括号中加上几个参数,就可以实现你想要的。
比如要判断一列或多列数据为重复标准,可以给爱笑的花生加上参数子集,赋一个值。再手术很简单,但是定位很复杂。下面是python打开Excel后的具体操作。
例如,如果您想要使用一个列作为重复标准,您只需要将该列的标题分配给subset。记得把它赋值为字符串格式!
如果对单个列不满意,可以分配多个列。此时,子集参数将以列表的形式被赋值。Excel不足以复制一个方向,所以使用python来执行多个序列方向。
而且,如果预留值可以调控呢?
比如你想保留第一个数据值的时候,不需要做其他操作,因为Python,第三方库pandas,在执行重复数据删除的时候默认保留第一个数据值。
但是如果想保留最后一个值,就需要在前面的drop_duplicates()函数中添加另一个参数keep,并赋给last。记住,赋值应该是字符串的格式。对Excel表进行重复数据删除并保留最后一个值。用python很酷。
如果不想保留重复的值,也就是说只要是重复的就要全部删除,那么可以用bool值False赋值。这个不采取字符串的格式,直接赋值也可以。Excel总是保留重复数据删除后的第一个值,但我使用python保留最后一个值。
好了,这就是Python的第三方库熊猫从Excel中删除重复项的大部分操作方法。
如果你觉得有用,希望你不要吝啬。文末“三联”上来了。同时,欢迎关注本百家号。
这个百家号会持续更新!
如果还有什么需要,可以在后台留言!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。