python收集数据实例,python数据处理实例
【数据整理】
数据整理是利用机器学习进行分析、可视化和建立预测模型之前的数据收集、数据评估和数据整理的过程【数据收集】
方法:1。直接从网上下载数据源;2.通过编程方法下载数据源;3.使用手边的文件【数据评估】。
评估我们的数据,确定哪些数据是干净的,以及一旦丢失,我们需要收集哪些数据。确保我们的数据格式能让后续分析更容易,更注重这种便利性。
数据评价主要是评价数据的质量和完整性。
数据质量问题:1。数据丢失;2.数据无效;3.数据不准确;4.数据不一致,单位不一样。
数据清洁度标准:1。每个变量形成一列;2.每个观测结果形成一条线;3.每种类型的观察单元形成一个表。
评价方式:目测评价(小样本)和编程评价。
使用。显示数据帧的前五行。
使用。tail显示数据帧的最后5行。
展示。信息显示数据帧的基本摘要。
使用。value_counts显示year列中的条目数。
Df。Year.value_counts(),value_counts用于series,而不是dataframe。
[数据清理]
编程数据清洗过程分为三步:定义、代码和练习。
定义:是指以书面形式定义数据清理计划,在这个计划中我们需要把评估变成一个定义好的清理任务。这个计划也可以作为一个检查清单,这样其他人(或未来的我们自己)就可以回顾和复制自己的工作。
编码:是指将这些定义转换成代码,并执行这些代码。
练习:是指练习我们的数据集,通常使用代码,以确保我们的清洁工作有效完成。
在清理之前,制作df_clean=df.copy()的副本。重命名列标题df _ clean=df _ clean . rename(columns={ old name 1 : new name 1 ,Oldname2:newname2})内容不一致问题df _ clean=pandas . series . Replace(to _ replace=None,inplace=false,limit=none,regex=false,method= pad ,Axis=None) *将“to _ Replace”中给定的值替换为 value 或第二个参数——即第一个参数* inplace的默认值为false,我们必须对其进行转换inplace的真值意味着我们只能在这里写这一行代码,执行这一行代码,它的变化会在df_clean中体现出来。如果这里没有真值,我们必须改变第二个函数
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。