Python预处理,python数据集的预处理
1、缺失数据的处理
导入的数据经常会丢失,最简单的处理方法是删除丢失的数据行。使用。dropna()在pandas中删除带有缺失值的行或列,或者删除特定列的缺失值。
Df=dfdata.dropna (axis=0)) #删除有缺失值的行有时会填充或替换缺失值,这里就不介绍了。
2、重复数据的处理
对于重复数据,通常会删除重复的行。使用。pandas中的duplicated()查询重复数据的内容,并使用。drop_duplicated()删除重复数据或对指定的数据列进行重复数据删除。
df=df data . drop _ duplicates(in place=true)#删除重复的数据行3、异常值处理
数据可能包含异常值,这意味着一个样本中的值明显偏离样本集中其他样本的观察值,也称为异常值。离群值可以通过箱线图、正态分布图、回归和聚类建模来识别。
盒图技术是利用数据的分位数来识别异常点。盒图分析超出了本文的内容,所以不能详细介绍。一般来说,通过观察盒图,可以看到整体的异常情况,找到异常值。
Df.boxplot () #绘制方框图以上是python数据预处理的三种情况。希望对你有帮助。更多python学习方向:Python基础课程
推荐操作环境:windows7系统,Python 3.9.1,戴尔G3电脑。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。