excel删除重复项并合并数据,python删除列表中重复元素

  excel删除重复项并合并数据,python删除列表中重复元素

  经常听人说Python在数据领域有多厉害。结果学了半天,连数据处理都麻烦的要死。后来发现不是Python强大的数据处理,而是他有数据分析神器——熊猫。

  序

  有时数据中会出现重复值,这可能会导致最终统计结果出现错误。因此,查找和删除重复值是数据处理中的常见操作。今天,我们来看看它是如何在熊猫身上实现的。

  Excel处理重复值。

  Excel直接提供了去重的功能,所以通过简单的操作就可以实现。如下所示:

  卡片“数据”和“数据工具”有“删除重复项”按钮。

  然后,您可以选择将哪些列用作重复判断。

  此外,Excel还可以使用条件格式、高级过滤或函数公式来实现类似的功能。

  熊猫标记重复值。

  Pandas还提供了简单的方法来标记重复值,并且有比Excel更灵活的处理方法供您选择。让我们来看看:

  DataFrame.duplicated(),它生成一个布尔标记,指示它是否是重复记录。默认情况下,以整行的所有数据作为判断依据。

  很明显最后一行是重复行,所以标签列最后一行的值为True。

  当有重复值时,我们可以指定保留行的哪个位置。如下所示:

  默认情况下,duplicated()的keep参数是 first ,这意味着保留第一个

  现在我们将keep设置为‘last ’,然后保留最后一个,因此现在重复的行中的第一行被标记为True。

  此外,我们还可以将keep参数设置为False,这意味着“不保留”,如下所示:

  现在,所有重复的行都被标记为真。

  参数子集可以指定哪些列作为判断依据:

  像Excel一样删除重复项

  事实上,在重复值被标记后,只需要简单的筛选就可以得到非重复记录。但是有一种直接的方法可以消除熊猫的复制。如下所示:

  您可以通过调用DataFrame.drop_duplicates()来删除重复项。

  他的参数和规则和复制的完全一样。其实就是把被duplicated()标记为真的行去掉而已。

  最后

  DataFrame.duplicated(),标记重复项。使用subset指定重复值判断列,keep={first , last ,False}指定如何判断哪些重复。

  DataFrame.drop_duplicates()删除重复项

  在下一节中,我们将看看排序函数的实现。敬请关注。

  如果你想从零开始学习熊猫,那么你可以看看我的熊猫专栏。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: