python 统计数据,python数据统计分析
1.缺失值处理
1.1显示缺失值
在Python中直接调用info()方法会返回每一列的missing。
Python中缺失的值一般用NaN表示。根据使用info()方法的结果,region、sales和sales这三列是12个非空值,其他是13个非空值。这三列分别代表一个缺失值。
1.2删除缺失的值。
Python使用dropna))方法。Drop))方法默认情况下删除包含缺失值的行。也就是说,如果一行缺少值,它将被删除。
要删除一个空行,只需将参数how=all 传递给dropna(方法)。这样,所有具有空值的行将被删除。
1.3缺陷值填充
用fillna)方法填充数据表中所有缺失的值,并输入要填充的值。
在Python中,还可以通过在fillna))方法的括号中指定列名来按列输入。
1.4重复值处理
使用Python drop_duplicates()方法。默认情况下,此方法对所有值执行重复值判断,默认情况下保留第一行中的值。
以上是所有字段重复值的判断,但是你可以通过提供drop_duplicates)方法判断的列名来判断是否删除了一列或几列的重复值。
您还可以自定义删除重复项时要保留的项目。您还可以设置默认值以保留第一个项目、最后一个项目或不保留任何项目。并传递参数keep。参数keep的默认值是first。也就是说,离开第一件事。也可以用last离开最后一件事;您也可以删除False或所有重复的值。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。