新手小白python数据清洗代码,python数据导入与清洗
数据清洗是进行数据分析和使用数据训练模型的必经之路,也是数据科学家/程序员花费精力最多的地方。
这些进行数据清理的代码有两个好处:一是由函数编写,不需要改变参数就可以直接使用。第二,很简单,最长评论只有11行。
在介绍每一段代码时,都给出了目的,代码中也给出了注释。
你可以收集这篇文章,把它当作一个工具箱。
涵盖8大场景的数据清洗代码
这些数据清理代码总共涵盖8种情况,即:
删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)以及转换时间戳(从字符串转换为日期时间格式)
删除多列
在数据分析中,并不是所有的列都有用。使用df.drop可以很容易地删除您指定的列。
转换数据类型
当数据集变大时,需要转换数据类型以节省内存。
将分类变量转换为数值变量
一些机器学习模型要求变量采用数字格式。这需要首先将分类变量转换成数字变量。同时,还可以保留分类变量,用于数据可视化。
检查缺失数据
如果您想检查每一列中缺失数据的数量,下面的代码是最快的方法。它可以帮助您更好地了解哪些列缺失的数据更多,从而确定下一步如何清理和分析数据。
删除列中的字符串
有时候,字符串列中会出现新的字符或其他奇怪的符号,使用df [col _ 1]可以简单的处理掉。替换。
删除列中的空格
当数据混乱时,任何事情都可能发生。字符串的开头经常会有一些空格。当删除列中字符串开头的空格时,下面的代码非常有用。
用字符串连接两列(带条件)
当您希望用一个字符串有条件地连接两个列时,这段代码非常有用。例如,您可以在第一列的末尾设置一些字母,然后将它们与第二列连接起来。
如果需要,在连接完成后,也可以删除末尾的字母。
转换时间戳(从字符串到日期时间格式)
在处理时间序列数据时,我们很可能会遇到字符串格式的时间戳列。
这意味着将字符串格式转换为日期-时间格式(或者根据我们的需要指定的其他格式),以便对数据进行有意义的分析。
热门IT软件开发工作室,大量免费python视频教程,欢迎在线学习!
本文转自:https://www.jianshu.com/p/b78affa1962a
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。