python统计缺失值个数,python缺失数据处理
缺失值可能是数据科学中最不受欢迎的值,然而,它们总是存在。忽视缺失的价值也是不合理的,因此我们需要找到一种有效且恰当的方法来处理它们。本文总结了四种查询缺失值的Python方法,有需要的可以参考。
00-1010缺失值NaN 缺失值NaN 空字符“-”和“?”在我们日常接触的Python中,狭义的缺失值一般指DataFrame中的NaN。广义来说,可以分为三种。
缺失值:熊猫有三种缺失值:np.nan(不是数字)、None和pd。NaT(时间格式中的空值,请注意大小写不能错)。空值:空值是指Pandas中的空字符串“”;最后一类是字符“-”和“?”最初用于表示导入文件(如Excel)中的缺失值。等等。今天,我们来谈谈Python中查询缺失值的4种方法。
目录
在Pandas中,查询缺失值最常用的方法是isnull(),返回True表示缺失值在这里。
我们可以将它与any()方法一起使用来查询有缺失值的行,或者与sum()方法一起使用来查询有缺失值的列。
Isnull():返回True对于缺失值;对于缺少的值,返回False。Any():如果序列中有一个True,则返回True,否则返回False。Sum():对序列求和。在交互环境中输入以下命令:
df.isnull()
输出:
在交互环境中输入以下命令:
df.isnull()。任何(轴=1)
输出:
在交互环境中输入以下命令:
df.isnull()。总和()
输出:
注:isna()和isnull()的用法是相同的,这里不再演示
缺失值 NaN
在Pandas中,isnull()方法返回True,这意味着这里有一个缺失的值,因此我们可以对数据集进行切片,找到缺失的值。
在交互环境中输入以下命令:
df[df.isnull()。values==True]
输出:
注意:如果一行中有多个值为null,就会出现重复的个数,所以我们可以使用df [df.isnull()。values==true]。drop _ duplicates()删除重复项。
此外,notnull()方法对应于isnull(),可用于直接查询具有非缺失值的数据行。
df[df[ A列]。notnull()]
输出:
缺失值 NaN
空值是指Pandas中的空字符串“”。我们还可以对数据集进行切片以找到空值。
在交互环境中输入以下命令:
DF[DF[ B列]==]
输出:
另外,空值和正常值的区别也可以用来区分它们。例如,isnumeric()方法检测字符串是否只由数字组成。
在交互环境中输入以下命令:
Df [df [列B ].str.isnumeric()==False]
输出:
如上图,数据集中的空值也被找到。
空值
很多时候,我们要处理的是本地的历史数据文件,这些文件在这些Excel文件中往往是不规范的。例如,他们可能使用“*”和“?”、"—"、"!"以此类推来指示丢失的值。
对于这种文本,我们可以使用正则表达式来匹配缺失的值。
进口
DF [DF [列C]。应用(Lambdax3360len (re。findall (na [*?!#-],x)!=0)]
输出:
如上图所示,我已经定制了匿名函数lambda,以便在文本列的每一行中查找以下文本值:“NA”,“*”,“?”、"!"、" # "、"-"并检查它找到的列表的长度。如果列表不为零,则表示缺失值的字符已经找到,因此这一行中至少有一个缺失值。
DF [DF [列D]。应用(Lambdax3360len (Re。Findall (na [*?!#-],x)!=0)]
输出:
我们可以对不同的列做同样的缺失值查询,也可以根据我们的实际情况替换正则表达式中代表缺失值的字符。
关于Python查询缺失值的四种方法的总结,本文到此结束。有关Python查询缺失值的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。