python数据清洗是什么意思,python数据导入与清洗

  python数据清洗是什么意思,python数据导入与清洗

  接触Python两年多,从来没有独立完成过一个Python的项目。我惭愧地说那件事。因为最近工作需要,用Excel和oracle整理数据好像不行了,于是求助于Python。当然,我踩了很多坑,一一记录下来,避免再次入坑。毕竟不常用,一旦好了就忘了疼.

  业务场景:

  领导带了几个Excel,一共150W条保险数据,需要按照特定的规则筛选出符合条件的数据。

  字段:业务机构、保单号、案号、被保险人、代码1、目标车号、VIN码、司机、电话号码、事故时间、事故过程、维修公司、定损金额、三个车号、三个VIN、三个司机、代码2、三个维修公司、查勘定损人员;

  150W条数据没有唯一标识字段:同一案件的包裹号对应一个目标车号,0-三个以上车号,一个目标车号对应一个或多个保单号,需要通过目标车号、保单号、报案号三个字段唯一确定一条理赔记录。

  过滤规则:

  电话频率大于或等于3次(1年内);帧数(受试者和三者均大于或等于3次(1年内;驾驶员姓名(科目一、三)大于等于三次(一年内),科目一、三维修单位为同一修理厂;同一车号或车架号10天内两次出险;21: 00至6: 00为危险时段,应进行风险识别。

  对这些数据,存在以下问题:

  一些记录的数据不完整,整体的缺失率较低。

  某些字段信息输入不正确,例如,电话字段中出现字符,时间字段中出现11位数字(可疑的电话信息)。

  有重复的数据

  Excel数据表列名不一致。

  问题摘要:

  这是一个简单的数据筛选工作!

  但我就是工作不太忙,又想练手拿数据,就开始练了~

  做之前要通过各种渠道对数据有一个全面的了解,否则,浪费时间!

  向数据源询问变量之间的关系,通过常识判断每个变量的值特征,通过探索性分析找出每个变量的缺失/值,根据结果分析数据清洗过程中可能遇到的问题。

  问题分解:

  数据存储在多个Excel表中,这些数据被读入一个变量。

  按过滤标准对数据进行排序。

  输出过滤器数据

  代码部分,我想放在另一篇文章里~

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: