python数据清洗是什么意思,python数据导入与清洗
接触Python两年多,从来没有独立完成过一个Python的项目。我惭愧地说那件事。因为最近工作需要,用Excel和oracle整理数据好像不行了,于是求助于Python。当然,我踩了很多坑,一一记录下来,避免再次入坑。毕竟不常用,一旦好了就忘了疼.
业务场景:
领导带了几个Excel,一共150W条保险数据,需要按照特定的规则筛选出符合条件的数据。
字段:业务机构、保单号、案号、被保险人、代码1、目标车号、VIN码、司机、电话号码、事故时间、事故过程、维修公司、定损金额、三个车号、三个VIN、三个司机、代码2、三个维修公司、查勘定损人员;
150W条数据没有唯一标识字段:同一案件的包裹号对应一个目标车号,0-三个以上车号,一个目标车号对应一个或多个保单号,需要通过目标车号、保单号、报案号三个字段唯一确定一条理赔记录。
过滤规则:
电话频率大于或等于3次(1年内);帧数(受试者和三者均大于或等于3次(1年内;驾驶员姓名(科目一、三)大于等于三次(一年内),科目一、三维修单位为同一修理厂;同一车号或车架号10天内两次出险;21: 00至6: 00为危险时段,应进行风险识别。
对这些数据,存在以下问题:
一些记录的数据不完整,整体的缺失率较低。
某些字段信息输入不正确,例如,电话字段中出现字符,时间字段中出现11位数字(可疑的电话信息)。
有重复的数据
Excel数据表列名不一致。
问题摘要:
这是一个简单的数据筛选工作!
但我就是工作不太忙,又想练手拿数据,就开始练了~
做之前要通过各种渠道对数据有一个全面的了解,否则,浪费时间!
向数据源询问变量之间的关系,通过常识判断每个变量的值特征,通过探索性分析找出每个变量的缺失/值,根据结果分析数据清洗过程中可能遇到的问题。
问题分解:
数据存储在多个Excel表中,这些数据被读入一个变量。
按过滤标准对数据进行排序。
输出过滤器数据
代码部分,我想放在另一篇文章里~
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。