Pythondataframe,pandas dataframe merge
DataFrame.duplicated(self,subset=None,keep=first )
返回表示重复行的布尔系列,可以选择仅考虑某些列。
参数:子集:列标签或标签序列,可选
仅考虑某些列来标识重复项,默认情况下使用所有列
keep:{first , last ,False},默认为第一
首先:将重复项标记真实的为第一次出现的除外。
最后:将重复项标记真实的为最后一次除外。
错误:将所有重复项标记为没错。
返回:系列
例子将数组作为铭牌导入
进口熊猫作为螺纹中径
标记数据帧重复df=pd .DataFrame({col1: [一,一,二,二,三,四], col2: [1,2,1,2,1,1,1],
col3:[AA , BB , CC , DD , EE , FF , GG]},index=[a , a , b , c , b , a , c])
df.duplicated()#默认所有列,无重复记录
df.duplicated(col1)#第二、四、五行被标记为重复
df.duplicated([列1 ,列2])#第五行被标记为重复
#keep=last
df.duplicated(col1 , last)#第一、三、四行被标记重复
df.duplicated([col1 , col2],keep=last)#第三行被标记为重复
#keep=False
df.duplicated(col1 ,False)#Series([True,True,True,True,True,False,False],index=[a , a , b , c , b , a , c])
df.duplicated([col1 , col2],keep=False)#在col1和第二栏列上出现相同的,都被标记为重复
type(df.duplicated([col1 , col2],keep=False))# pandas。核心。系列。系列
#根据索引标记
df.index.duplicated()#默认keep=first ,第二、五、七行被标记为重复
df。索引。重复(keep= last )#第一、二、三、四被标记为重复
df[df.index.duplicated()]#获取重复记录行
df[~ df。索引。重复( last )]#获取不重复记录行
标记系列重复例子#duplicated(self,keep=first )
s=pd .系列([一,一,二,二,二,三,四],index=[a , a , b , b , a , c],name=sname )
s。重复()
s.duplicated("最后一个")
美国复制(假)
#根据索引标记
s。索引。被骗()
s.index.duplicated(last )
s.index.duplicated(False)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。