Python如何处理数据,利用python进行数据处理
数据处理无处不在,掌握常用技能可以事半功倍。本文将使用Pandas进行数据处理和分析,并总结常用和有用的数据分析技巧。有兴趣的可以学习一下。
目录
1熊猫删除一列。2统计标题字数。3体裁频率统计。我用的熊猫版如下,也是顺便导入熊猫库的。进口熊猫作为pd
警察。__版本_ _
0.25.1
在开始之前,确保解释器和数据集在同一个目录中:
导入操作系统
OS . chdir( d ://source/dataset )#这是我的数据集所在的目录。
Os.listdir() #确认此目录中已经存在IMDB-Movie-Data数据集。
[drinksbycountry.csv , IMDB-Movie-Data.csv , movietweetings , titanic_eda_data.csv , titanic_train_data.csv]
准备工作就绪后,正式开始数据处理技能之旅。
1 Pandas 移除某列
输入数据
df=PD . read _ CSV( IMD b-Movie-data . CSV )
Df.head(1) #导入并显示第一行
排名标题类型.投票收入(百万元)
0 1银河护卫队动作、冒险、科幻.757074 333.13 76.0
[1行x 12列]
使用pop方法删除指定的列:
Meta=df.pop (Title )。to _ frame () #删除标题列
确认它已被删除:
Df.head(1) # df变成11列
等级流派.收入(百万元)
0 1动作、冒险、科幻.333.13 76.0
[1行x 11列]
2 统计标题单词数
pop后,获得meta,并显示meta的前3行:
元标题(3)
标题
0银河护卫队
1普罗米修斯
2分割
标题由空格分隔的单词组成。
# .str.count( ) 1以获取字数
meta[ words _ count ]=meta[ Title ]. str . count( )1
Meta.head(3) # words_count列表示字数。
标题字数_计数
0银河护卫队4
普罗米修斯1号
2拆分1
3 Genre 频次统计
我们来统计一下电影流派的出现频率,
vc=df[流派]。值计数()
电影类型的前5名如下所示,动作、冒险和科幻类出现的频率最高,为50次,其次是戏剧类,为48次:
vc.head()
动作,冒险,科幻50
戏剧48
喜剧、戏剧、爱情片35
喜剧32
戏剧,浪漫31
Name:流派,dtype: int64
显示前5名的饼图:
将matplotlib.pyplot作为plt导入
VC【:5】。plot(kind=pie )
matplotlib.axes._subplots。0x000001D65B114948处的AxesSubplot对象
plt.show()
关于分享Python数据处理的三个实用技巧的这篇文章到此为止。有关Python数据处理的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。