python筛选符合条件的数据,python 条件筛选

　　df.drop_duplicates()

　　DataFrame.drop_duplicates(self，subset=None，keep=first ，inplace=False)参数：

　　子集：列标签或标签序列，可选

　　仅考虑某些列来标识重复项，默认情况下使用所有列

　　keep : {first ， last ，False}，默认为第一

　　首先：删除除第一个匹配项之外的重复项。

　　最后：删除除最后一次出现之外的重复项。

　　错误：删除所有重复项。

　　原地：布尔值，默认为错误的

　　是就地删除副本还是返回副本

　　返回：数据帧

　　df.duplicated()参数

　　DataFrame.duplicated(self，subset=None，keep= first )[来源]参数：

　　子集：列标签或标签序列，可选

　　仅考虑某些列来标识重复项，默认情况下使用所有列

　　keep : {first ， last ，False}，默认为第一

　　首先：将重复项标记为没错，第一次出现的除外。

　　最后：将重复标记为没错，最后一次除外。

　　错误：将所有重复标记为没错。

　　返回值：系列

　　进口熊猫作为PD进口numpy作为NP进口随机NP。set _ print选项(精度=3，抑制=真)NP。set _ print选项(formatter={ float :":0.3f }).格式})PD。set _ option( precision ，5) #设置精度警察。set _ option( display。float _ format ，lambda x: %.0f % x) #为了直观的显示数字，不采用科学计数法 drop_repeat_infor:删除完全相同的字段重复_信息的数据条目，区分大小写数据来源为原始数据（数据帧),重复_信息是目标字段名称(str) def drop _ repeat _ infor(df _ data _ origin，repeat _ infor):df _ drop _ repeat _ infor=df _ data _ origin。drop _ duplicates([repeat _ infor])return df _ drop _ repeat _ infor get _ case _ insensentive _ repeat _ infor:不区分字段重复_信息大小写，找出重复字段重复_信息的数据保留所有重复值，重复(subset=[repeat_infor]，keep=False)保留一条重复值，重复(subset=[repeat_infor]，keep= first ) def get _ case _ insensentive _ repeat_infor(df _ data，repeat _ infor，ref_infor): #去重df _ drop _ repeat _ infor=df _ data。drop _ duplicates(subset=[repeat _ infor])#字段重复_信息改为小写# ref _ infor _ lower=repeat _ infor _ lower df _ drop _ repeat _ infor _ lower=PD .数据帧(columns=[repeat _ infor])df _ drop _ repeat _ infor _ lower[repeat _ infor]=df _ drop _ repeat _ infor[repeat _ infor].astype(str).str.lower() #查找去重后，不区分大小写的所有重复值df _ repeat _ infor _ lower=df _ drop _ repeat _ infor[df _ drop _ repeat _ infor _ lower。重复(subset=[repeat _ infor]，keep=False)]返回df _ repeat _ infor _ lower def get _ similar _ infor _ data:找出参考字段(ref_infor)相同，关心字段(repeat_infor)不同的数据条目df_data数据def get _ similar _ infor _ data(df _ data，repeat_infor，ref_infor): #去重df _ drop _ repeat _ infor=df _ data。drop _ duplicates([repeat _ infor])#按照参考字段统计关心字段条目数df _ counts=df _ drop _ repeat _ infor。group by([ref _ infor]).大小()。reset_index(name=counts) #选择计数一的条目df _ similar _ infor _ data=df _ counts[df _ counts[ counts ]1]返回df_similar_infor_data #导入数据TFS_数据_来源=pd.read_csv(数据_输入/TFS_需求清单项目名称. csv ，编码=gbk)#完全相同的项目名称去重TFS _删除_重复_信息_温度=pd .DataFrame(columns=[项目代码,项目名称])TFS _删除_重复_信息_临时=删除_重复_信息(TFS _数据_来源，项目名称)#排序TFS _下降_重复_信息=TFS _下降_重复_信息_温度。排序值(项目名称，升序=True，na_position=第一)#na_position=最后圆盘烤饼放在最后#针对去重的项目名称，不区分大小写，找出重复的项目名称的数据TFS _下降_重复_信息_低=pd .数据框(columns=[ project_name _ lower ])TFS _ drop _ repeat _ infor _ lower=get _ case _ insensentive _ repeat _ infor(TFS _ data _ origin， project _ name ， project _ code )打印(TFS _ drop _ repeat _ infor _ lower)#查找相同项目编号不同项目名称的数据TFS _获取_相似_信息_数据=获取_相似_信息_数据(TFS _数据_来源，项目_名称,项目_代码)#获取项目名称和id list _ temp=TFS _获取_相似_信息_数据[项目_代码]。astype(str).tolist()str_similar_id=， .加入(临时名单)TFS相似_姓名=TFS _下降_重复_信息[TFS下降_重复_信息[项目_代码]。apply(lambda x:str(x)in(str _ similar _ id))]print(TFS _ similar _ name)参考文档

　　参考文档

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读