数据预处理的主要任务是什么,对数据进行预处理的目的

　　数据预处理一般操作数据读取数据分析数据大小确认数据类型、缺失值、缺失值占比确认数据相关性-数据处理数据类型转换显示pd.to_numeric函数散点图观察缺失值处理数据删除缺失值填写：文本数据

　　读取数据

　　通过导入数据并将其集成到df _功能中，可以一起处理训练集和测试集。

　　#读取excel train=PD.read _ excel (r 文件路径)test=PD.read_excel读取csvtrain=PD.read_)。合并数据df_features=train.append(测试)数据分析显示数据大小打印(培训集： str train.shape ) \ n测试集：( str ) test.shape))数据类型显示缺少值的百分比#列号为中文col=[]df _ features列=列号视图毕丽=list((()).格式.values ) for index，values，isnull，biin zip(list(df _ features。数据类型。index)、list)df _ df列表(df _ features。为空).总和)、毕丽):12)({:12 } { 336012 } { 336012 } { 336012 } { 336012 })、)

　　查看数据依赖关系-#相关函数data.corr()打印相关矩阵的第一列)#for index，valuesinzip ) df_features.corr).index，df_features.corr().值[0] ) : # print ({ :15 }).格式)索引，值)(#相关性importmatplotlib。pyplotaspltimportsabornassnsfromplabimportmpl。RC params[ font。无衬线])=差速器=假#解析保存映像指定为负的PLT.figure (fig size=6520，20)(ax=SNS。热图)teatmap)square=True，line color=。中心=0)轴。tick _ Params(标签大小=10)PLT。展示)数据处理数据类型对不可转换的数据执行nandf _ features [ columns _ name ]

　　散点图由importmatplotlib。pyplotasplt。散点图(df _ features[ columns _ name ].索引，df _ features [ columns _ ne ]

　　数据框。drop _ duplicates(subset=none，keep=first ，inplace=False ) ) Python熊猫是数据删除重复项的详细解

　　删除一列：

　　df_features.drop(columns_name)，axis=1，inplace=True)缺少值的填充：常规填充方法：

　　填充-1: df _ features [列名].填充na [-1，就地=真填充乘数，平均数，中值等：df _ features[ columns _]in place=true(#填充平均数df _ features[列名].填充na(df _ features[in place=true(#中值df _ features [列名]。填充na (df _ features [ columns _ name ].模式))0)

　　KNNImputer:可靠的缺失值插值方法

　　我建议你看看这个。填补缺失值的几种方法

　　文本数据处理http://www .Sina.com/:弗洛斯克尔恩。预处理importlabelencoderforfeatin[ columns _ name ]3360 LBL=拉梅)df _ features[feat]=LBL。transform(df _ features[feat])http://www。新浪。)

　　用"虚拟变量矩阵"(虚拟矩阵)替换分类变量。如果数据帧列包含k个不同的值，则可以派生k列矩阵或数据帧。值都是0和1。熊猫具有实现此功能的获取_假人函数。

　　pandas.get_dummies(data，prefix=None，prefix _ sep=_ ，dummy_na=False，columns=None，sparse=False 99))get _ dummies(data，)如果不指定新列的列名，则dummies1=PD.get(列名打印(- df -))打印)df)数据的原始标记对打印(df _ dummies 1)#前缀参数是前缀=key )打印，其可以将前缀df_dummies2=PD.get_dummies ) df加到伪变量的名称前缀=key ) - df_dummies2 -默认情况下，所有分类变量都是one_hot处理df_dummies3=PD.get_dummies(df)一个列参数df_dummies4=PD.get_dummies(df，前缀=[class ， like)打印)" " "- PD.get)是必需的"喜欢")- df_dummies4 -")打印(df _ dummies) sorce ]-df _ dummies 5- )打印(df _ dummies5)原文链接：Python对数据一个热点代码

　　LabelEncoder编码:重新审视：AI基础：特征工程-文本特征处理

　　最后，建议大家看看桨的数据准备和特征工程的故事。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读