python数据分析数据清洗,用python清洗数据
Python数据清洗学习笔记——概述数据清洗本质上是在实际业务问题中,将脏数据清洗并转化为‘干净数据’。所谓脏数据,是指数据可能存在以下问题(主要问题):
不完整数据是属性值为空的情况。比如占位=" "
噪声是数据值不合理的情况。比如工资="-100 "
数据不一致是前后数据有矛盾的情况。例如年龄="042 "或生日=" 01/09/1985 "
数据冗余是数据量或属性数超过数据分析需要的情况。
离群值是偏离大多数值的数据。
重复数据是在数据集中多次出现的数据。
数据清洗的意义:在现实生活中,数据并不是完美的,需要进行清洗,之后才能进行数据分析。
数据清理是整个数据分析项目中最耗时的步骤。
数据的质量最终决定了数据分析的准确性。
数据清洗是提高数据质量的必由之路,它使数据分析的结果更加可靠。
记录自:python数据清洗实战Peter老师
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。