Python技术手册,《python入门指南》
经常听人说Python在数据领域有多厉害。结果学了半天,连数据处理都麻烦的要死。后来发现不是Python强大的数据处理,而是他有数据分析神器——熊猫。
序
有时数据中会出现重复值,这可能会导致最终统计结果出现错误。因此,查找和删除重复值是数据处理中的常见操作。今天,我们来看看它是如何在熊猫身上实现的。
Excel处理重复值。
Excel直接提供了去重的功能,所以通过简单的操作就可以实现。如下所示:
功能卡“数据”和“数据工具”有一个“删除重复”按钮,然后您可以选择使用哪些列作为重复判断。此外,Excel还可以使用条件格式、高级过滤或函数公式来实现类似的功能。
熊猫标记重复值。
Pandas还提供了简单的方法来标记重复值,并且有比Excel更灵活的处理方法供您选择。让我们来看看:
DataFrame.duplicated(),它生成一个布尔标记,指示它是否是重复记录。默认情况下,整行的所有数据都作为判断依据。很明显最后一行是重复行,所以tag列最后一行的值为True。当有重复值时,我们可以指定保留哪个位置行。如下所示:
默认情况下,duplicated()的keep参数为 first ,即保留第一个。现在我们将keep设置为 last ,所以最后一个被保留,所以重复行中的第一行被标记为True。此外,我们还可以将keep参数设置为False,这意味着“不保留”,如下所示:
现在,所有重复的行都被标记为True。您可以通过参数子集指定要判断的列:
像Excel一样删除重复项
事实上,在重复值被标记后,只需要简单的筛选就可以得到非重复记录。但是有一种直接的方法可以消除熊猫的复制。如下所示:
可以调用DataFrame.drop_duplicates()来删除重复项。其参数和规则与复制的完全相同。其实就是把被duplicated()标记为真的行去掉而已。
最后
DataFrame.duplicated(),标记重复项。使用subset指定重复值判断列,keep={first , last ,False}指定如何判断哪些重复是DataFrame.drop_duplicates()。在下一节中,我们将看看排序函数的实现。敬请关注。
如果你想从零开始学习熊猫,那么你可以看看我的熊猫专栏。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。