python中table函数是什么,python table对象
在获取数据时,往往存在一些重复数据,会影响统计结果,误导决策者。
或者数据源使用以前将一个文档分成多个文档的数据。
数据源
要查询是否有重复值,可以使用duplicated()函数:
查询该区域是否具有相同(重复)的值。
返回一组bool值,可用于筛选非重复值或重复值。
注意,如果不指定area变量,duplicated()会比较所有列,只有当每列的值相同时,才会标记为重复值。
我们可以尝试过滤掉具有重复值的行:
过滤掉重复的值。
过滤数据的信息
筛选出具有非重复值的行:
具有非重复值的行
当然,有时我们可能希望选择两列中有重复值的数据。此时,我们需要同时选择两列进行过滤。
选择两列共有的重复值。
另一个常见的场景是,当我们选择重复值时,我们是希望保留第一个值还是最后一个值?
不知道keep=last
指定keep=last
从上图可以看出,keep=last 参数是让系统从后向前开始过滤,这样索引小的重复行将返回True。
上述函数是重复的,只筛选出重复值,不处理重复值。
要处理重复值,应该使用drop_duplicates,这样效率会高得多:
使用删除重复项
这样,所有重复的值都会被删除。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。