python填补缺失值,python缺失数据处理
解决方法
1.忽略元组。
当类别标签缺失时,通常会这样做(假设挖掘任务与分类相关),除非元组有多个属性缺失值,否则这种方法不是很有效。当属性的缺失值百分比变化很大时,其性能特别差。
2.手动填写缺少的值。
一般来说,这种方法耗时较长。当数据集很大且缺少很多值时,这种方法可能无法实现。
3.用全局常量填充缺少的值。
用相同的常数替换缺失的属性值(如Unknown或负数)。如果缺失值全部替换为未知,挖掘程序可能会认为形成了一个有趣的概念。因为同值,未知。因此,这种方法简单,但不可靠。
4.使用与给定元组相同类型的所有样本的属性平均值。
5.用最可能的值填充缺失的值。
它可以通过回归、贝叶斯形式化的基于推理的工具和决策树的总结来确定。
实例
importnumpyasnp
fromsk learn . preprocessingimportimputer
imp=inputr(missing _ values= NaN ,strategy=mean ,axis=0)
importnumpyasnp
fromsk learn . preprocessingimportimputer
###1.用平均值填充缺失的值
imp=inputr(missing _ values= NaN ,strategy=mean ,axis=0)
imp.fit([[1,2],[np.nan,3],[7,6]])
x=[[名词,2],[6,名词,7,6]]
print(imp.transform(X))
[[4.2.]
[6.3.66666667]
[7.6.]]以上是python缺失值的解决方法。希望对你有帮助。更多python学习方向:Python基础课程
本教程运行环境:windows7系统,Python 3.9.1,DELL G3电脑。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。