Python技术手册,《python入门指南》

　　经常听人说Python在数据领域有多厉害。结果学了半天，连数据处理都麻烦的要死。后来发现不是Python强大的数据处理，而是他有数据分析神器——熊猫。

　　序

　　有时数据中会出现重复值，这可能会导致最终统计结果出现错误。因此，查找和删除重复值是数据处理中的常见操作。今天，我们来看看它是如何在熊猫身上实现的。

　　Excel处理重复值。

　　Excel直接提供了去重的功能，所以通过简单的操作就可以实现。如下所示：

　　功能卡“数据”和“数据工具”有一个“删除重复”按钮，然后您可以选择使用哪些列作为重复判断。此外，Excel还可以使用条件格式、高级过滤或函数公式来实现类似的功能。

　　熊猫标记重复值。

　　Pandas还提供了简单的方法来标记重复值，并且有比Excel更灵活的处理方法供您选择。让我们来看看：

　　DataFrame.duplicated()，它生成一个布尔标记，指示它是否是重复记录。默认情况下，整行的所有数据都作为判断依据。很明显最后一行是重复行，所以tag列最后一行的值为True。当有重复值时，我们可以指定保留哪个位置行。如下所示：

　　默认情况下，duplicated()的keep参数为 first ，即保留第一个。现在我们将keep设置为 last ，所以最后一个被保留，所以重复行中的第一行被标记为True。此外，我们还可以将keep参数设置为False，这意味着“不保留”，如下所示：

　　现在，所有重复的行都被标记为True。您可以通过参数子集指定要判断的列：

　　像Excel一样删除重复项

　　事实上，在重复值被标记后，只需要简单的筛选就可以得到非重复记录。但是有一种直接的方法可以消除熊猫的复制。如下所示：

　　可以调用DataFrame.drop_duplicates()来删除重复项。其参数和规则与复制的完全相同。其实就是把被duplicated()标记为真的行去掉而已。

　　最后

　　DataFrame.duplicated()，标记重复项。使用subset指定重复值判断列，keep={first ， last ，False}指定如何判断哪些重复是DataFrame.drop_duplicates()。在下一节中，我们将看看排序函数的实现。敬请关注。

　　如果你想从零开始学习熊猫，那么你可以看看我的熊猫专栏。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。