excel删除重复项并合并数据,python删除列表中重复元素

　　经常听人说Python在数据领域有多厉害。结果学了半天，连数据处理都麻烦的要死。后来发现不是Python强大的数据处理，而是他有数据分析神器——熊猫。

　　序

　　有时数据中会出现重复值，这可能会导致最终统计结果出现错误。因此，查找和删除重复值是数据处理中的常见操作。今天，我们来看看它是如何在熊猫身上实现的。

　　Excel处理重复值。

　　Excel直接提供了去重的功能，所以通过简单的操作就可以实现。如下所示：

　　卡片“数据”和“数据工具”有“删除重复项”按钮。

　　然后，您可以选择将哪些列用作重复判断。

　　此外，Excel还可以使用条件格式、高级过滤或函数公式来实现类似的功能。

　　熊猫标记重复值。

　　Pandas还提供了简单的方法来标记重复值，并且有比Excel更灵活的处理方法供您选择。让我们来看看：

　　DataFrame.duplicated()，它生成一个布尔标记，指示它是否是重复记录。默认情况下，以整行的所有数据作为判断依据。

　　很明显最后一行是重复行，所以标签列最后一行的值为True。

　　当有重复值时，我们可以指定保留行的哪个位置。如下所示：

　　默认情况下，duplicated()的keep参数是 first ，这意味着保留第一个

　　现在我们将keep设置为‘last ’,然后保留最后一个，因此现在重复的行中的第一行被标记为True。

　　此外，我们还可以将keep参数设置为False，这意味着“不保留”，如下所示：

　　现在，所有重复的行都被标记为真。

　　参数子集可以指定哪些列作为判断依据：

　　像Excel一样删除重复项

　　事实上，在重复值被标记后，只需要简单的筛选就可以得到非重复记录。但是有一种直接的方法可以消除熊猫的复制。如下所示：

　　您可以通过调用DataFrame.drop_duplicates()来删除重复项。

　　他的参数和规则和复制的完全一样。其实就是把被duplicated()标记为真的行去掉而已。

　　最后

　　DataFrame.duplicated()，标记重复项。使用subset指定重复值判断列，keep={first ， last ，False}指定如何判断哪些重复。

　　DataFrame.drop_duplicates()删除重复项

　　在下一节中，我们将看看排序函数的实现。敬请关注。

　　如果你想从零开始学习熊猫，那么你可以看看我的熊猫专栏。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。