python筛选符合条件的数据,python 条件筛选

  python筛选符合条件的数据,python 条件筛选

  df.drop_duplicates()

  DataFrame.drop_duplicates(self,subset=None,keep=first ,inplace=False)参数:

  子集:列标签或标签序列,可选

  仅考虑某些列来标识重复项,默认情况下使用所有列

  keep : {first , last ,False},默认为第一

  首先:删除除第一个匹配项之外的重复项。

  最后:删除除最后一次出现之外的重复项。

  错误:删除所有重复项。

  原地:布尔值,默认为错误的

  是就地删除副本还是返回副本

  返回:数据帧

  df.duplicated()参数

  DataFrame.duplicated(self,subset=None,keep= first )[来源]参数:

  子集:列标签或标签序列,可选

  仅考虑某些列来标识重复项,默认情况下使用所有列

  keep : {first , last ,False},默认为第一

  首先:将重复项标记为没错,第一次出现的除外。

  最后:将重复标记为没错,最后一次除外。

  错误:将所有重复标记为没错。

  返回值:系列

  进口熊猫作为PD进口numpy作为NP进口随机NP。set _ print选项(精度=3,抑制=真)NP。set _ print选项(formatter={ float :":0.3f }).格式})PD。set _ option( precision ,5) #设置精度警察。set _ option( display。float _ format ,lambda x: %.0f % x) #为了直观的显示数字,不采用科学计数法 drop_repeat_infor:删除完全相同的字段重复_信息的数据条目,区分大小写数据来源为原始数据(数据帧),重复_信息是目标字段名称(str) def drop _ repeat _ infor(df _ data _ origin,repeat _ infor):df _ drop _ repeat _ infor=df _ data _ origin。drop _ duplicates([repeat _ infor])return df _ drop _ repeat _ infor get _ case _ insensentive _ repeat _ infor:不区分字段重复_信息大小写,找出重复字段重复_信息的数据保留所有重复值,重复(subset=[repeat_infor],keep=False)保留一条重复值,重复(subset=[repeat_infor],keep= first ) def get _ case _ insensentive _ repeat_infor(df _ data,repeat _ infor,ref_infor): #去重df _ drop _ repeat _ infor=df _ data。drop _ duplicates(subset=[repeat _ infor])#字段重复_信息改为小写# ref _ infor _ lower=repeat _ infor _ lower df _ drop _ repeat _ infor _ lower=PD .数据帧(columns=[repeat _ infor])df _ drop _ repeat _ infor _ lower[repeat _ infor]=df _ drop _ repeat _ infor[repeat _ infor].astype(str).str.lower() #查找去重后,不区分大小写的所有重复值df _ repeat _ infor _ lower=df _ drop _ repeat _ infor[df _ drop _ repeat _ infor _ lower。重复(subset=[repeat _ infor],keep=False)]返回df _ repeat _ infor _ lower def get _ similar _ infor _ data:找出参考字段(ref_infor)相同,关心字段(repeat_infor)不同的数据条目df_data数据def get _ similar _ infor _ data(df _ data,repeat_infor,ref_infor): #去重df _ drop _ repeat _ infor=df _ data。drop _ duplicates([repeat _ infor])#按照参考字段统计关心字段条目数df _ counts=df _ drop _ repeat _ infor。group by([ref _ infor]).大小()。reset_index(name=counts) #选择计数一的条目df _ similar _ infor _ data=df _ counts[df _ counts[ counts ]1]返回df_similar_infor_data #导入数据TFS_数据_来源=pd.read_csv(数据_输入/TFS_需求清单项目名称. csv ,编码=gbk)#完全相同的项目名称去重TFS _删除_重复_信息_温度=pd .DataFrame(columns=[项目代码,项目名称])TFS _删除_重复_信息_临时=删除_重复_信息(TFS _数据_来源,项目名称)#排序TFS _下降_重复_信息=TFS _下降_重复_信息_温度。排序值(项目名称,升序=True,na_position=第一)#na_position=最后圆盘烤饼放在最后#针对去重的项目名称,不区分大小写,找出重复的项目名称的数据TFS _下降_重复_信息_低=pd .数据框(columns=[ project_name _ lower ])TFS _ drop _ repeat _ infor _ lower=get _ case _ insensentive _ repeat _ infor(TFS _ data _ origin, project _ name , project _ code )打印(TFS _ drop _ repeat _ infor _ lower)#查找相同项目编号不同项目名称的数据TFS _获取_相似_信息_数据=获取_相似_信息_数据(TFS _数据_来源,项目_名称,项目_代码)#获取项目名称和id list _ temp=TFS _获取_相似_信息_数据[项目_代码]。astype(str).tolist()str_similar_id=, .加入(临时名单)TFS相似_姓名=TFS _下降_重复_信息[TFS下降_重复_信息[项目_代码]。apply(lambda x:str(x)in(str _ similar _ id))]print(TFS _ similar _ name)参考文档

  参考文档

  参考文档

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: