数据预处理的主要任务是什么,对数据进行预处理的目的
数据预处理一般操作数据读取数据分析数据大小确认数据类型、缺失值、缺失值占比确认数据相关性-数据处理数据类型转换显示pd.to_numeric函数散点图观察缺失值处理数据删除缺失值填写:文本数据
读取数据
通过导入数据并将其集成到df _功能中,可以一起处理训练集和测试集。
#读取excel train=PD.read _ excel (r 文件路径)test=PD.read_excel读取csvtrain=PD.read_)。合并数据df_features=train.append(测试)数据分析显示数据大小打印(培训集: str train.shape ) \ n测试集:( str ) test.shape))数据类型显示缺少值的百分比#列号为中文col=[]df _ features列=列号视图毕丽=list((()).格式.values ) for index,values,isnull,biin zip(list(df _ features。数据类型。index)、list)df _ df列表(df _ features。为空).总和)、毕丽):12)({:12 } { 336012 } { 336012 } { 336012 } { 336012 })、)
查看数据依赖关系-#相关函数data.corr()打印相关矩阵的第一列)#for index,valuesinzip ) df_features.corr).index,df_features.corr().值[0] ) : # print ({ :15 }).格式)索引,值)(#相关性importmatplotlib。pyplotaspltimportsabornassnsfromplabimportmpl。RC params[ font。无衬线])=差速器=假#解析保存映像指定为负的PLT.figure (fig size=6520,20)(ax=SNS。热图)teatmap)square=True,line color=。中心=0)轴。tick _ Params(标签大小=10)PLT。展示)数据处理数据类型对不可转换的数据执行nandf _ features [ columns _ name ]
散点图由importmatplotlib。pyplotasplt。散点图(df _ features[ columns _ name ].索引,df _ features [ columns _ ne ]
数据框。drop _ duplicates(subset=none,keep=first ,inplace=False ) ) Python熊猫是数据删除重复项的详细解
删除一列:
df_features.drop(columns_name),axis=1,inplace=True)缺少值的填充:常规填充方法:
填充-1: df _ features [列名].填充na [-1,就地=真填充乘数,平均数,中值等:df _ features[ columns _]in place=true(#填充平均数df _ features[列名].填充na(df _ features[in place=true(#中值df _ features [列名]。填充na (df _ features [ columns _ name ].模式))0)
KNNImputer:可靠的缺失值插值方法
我建议你看看这个。填补缺失值的几种方法
文本数据处理http://www .Sina.com/:弗洛斯克尔恩。预处理importlabelencoderforfeatin[ columns _ name ]3360 LBL=拉梅)df _ features[feat]=LBL。transform(df _ features[feat])http://www。新浪。)
用"虚拟变量矩阵"(虚拟矩阵)替换分类变量。如果数据帧列包含k个不同的值,则可以派生k列矩阵或数据帧。值都是0和1。熊猫具有实现此功能的获取_假人函数。
pandas.get_dummies(data,prefix=None,prefix _ sep=_ ,dummy_na=False,columns=None,sparse=False 99))get _ dummies(data,)如果不指定新列的列名,则dummies1=PD.get(列名打印(- df -))打印)df)数据的原始标记对打印(df _ dummies 1)#前缀参数是前缀=key )打印,其可以将前缀df_dummies2=PD.get_dummies ) df加到伪变量的名称前缀=key ) - df_dummies2 -默认情况下,所有分类变量都是one_hot处理df_dummies3=PD.get_dummies(df)一个列参数df_dummies4=PD.get_dummies(df,前缀=[class , like)打印)" " "- PD.get)是必需的"喜欢")- df_dummies4 -")打印(df _ dummies) sorce ]-df _ dummies 5- )打印(df _ dummies5)原文链接:Python对数据一个热点代码
LabelEncoder编码:重新审视:AI基础:特征工程-文本特征处理
最后,建议大家看看桨的数据准备和特征工程的故事。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。