python中词云,python词云代码简单
一、什么叫词云图?词云,也称文本云,在视觉上突出文本数据中频繁出现的关键词,形成类似‘关键词渲染’的彩色画面,从而过滤掉大量的文本信息,使人们能够一目了然地欣赏到文本数据的主要表达意义。
二、开发环境已经准备好:Win10 Python 3.6.1 64bit PyCharm。
需要:直接导入两个强大的Python库jieba分词和词云生成WorldCloud(可定制后台)
准备文字资料。这里用的文本文件是jay.txt,是我偶像周杰伦的歌词合集。
要使用PyCharm,从文件-设置-项目:项目名称-项目解释器中点击左上角右边的“”,在弹出界面的搜索栏输入“jieba”和“WorldCloud”,然后安装包。
三、上代码,老司机开车网上有很多现成的制作文字云图的工具,但是我想私人定制。
1、只用十行代码,真滴有灵性
Importplotlib.pyplotlib作为PLT #数学画图库从wordcloud导入jieba #同义词库导入WordCloud # wordcloud库#1,读入txt文本数据text=open(r d:\ python \ test \ word cloud \ data \ Jay . txt , r )。Read () # 2、knot你可以添加一个自定义词典userdict.txt,然后是jieba.load _ userdict (file _ name),其中file _ name是文件类对象或者自定义词典的路径#自定义词典格式和默认词库dict.txt一样,一行一个词:每行分为三部分:单词、词频(可以省略)和词性(可以省略),用空格隔开。顺序不能颠倒cut _ text=jieba . cut(text)result=/。Join (cut _ text) #必须给出符号将分词结果分开形成字符串,否则无法画出WordCloud #print(result)#3。生成单词云图像。这里需要注意的是,Word Cloud默认不支持中文。所以这里需要下载的中文字体#无自定义背景图片:需要指定生成的字云图片的像素大小,默认背景颜色为黑色,统一的文字颜色为:mode=RGBA 和colormap= pink WC=word cloud(font _ path=r d:\ python \ test \ word cloud \ data \ TTF \ ya hei . TTF ,background_color=white ,width=800,height=600,max_font_size=50,max_words=1000)#, output \ wordcloud.png) #按照设定的像素宽度和高度保存绘制的字云图像,比下面的程序# 4更清晰。 显示图片plt.figure(字云图)#指定绘图名称plt.imshow(wc) #显示字云plt。轴( off )以图片的形式#关闭图像坐标系plt.show()下一站,字云街A:
2、进阶:自定义背景图
从pil导入matplotlib.pyplot作为plt #数学画图库导入image导入numpy作为NP #科学数值计算包,可用于存储和处理大型矩阵从wordcloud导入jieba #词库导入WordCloud,ImageColorGenerator # Word Cloud库#1。读取txt文本数据text=open(r d:\ python \ test \ word cloud \ data \ English . txt , r )。Read () # 2。Stump分词:cut_all参数可选,True为全模式,False为精确模式,默认模式cut _ text=jieba.cut (text,cut _ all=false) result=/。Join (cut _ text) #必须给出符号来分隔分词结果,否则无法画出字云#3。初始化自定义背景图片image=image . open(r d:\ python \ test \ Word \ data \ backgroud \ image1 . png )graph=NP . array(image)# 4、生成的word cloud image #有自定义背景图片:生成的word cloud image由自定义背景图片的像素大小决定WC=Word cloud(font _ path=r d:\ python \ test \ Word cloud \ data \ TTF \ yahei . TTF ,background _ color= white ,max_font_size=50,Mask=graph) wc.generate参照背景图像的颜色绘制文字的颜色_ color=imagecolorgenerator(graph)#生成颜色值WC . re color(color _ func=image _ color)WC . to _ file(r d:\ Python \ test \ word cloud \ output \ word cloud . png )#根据背景图像大小保存绘制的文字云图像,比下面的程序# 6更清晰。显示图片plt.figure(字云图像)#指定绘制名称plt.show(wc) #显示字云plt.axis (off )为图片。
原图:其他背景都是纯色。
四。遇到的Bugs用Pycharm导入包比用命令行pip install xxx特别方便,但是我遇到了一个安装错误:需要Mircroft Viscal C 14.0。以前用Visual studio 2015写C语言,后来换了系统就不想下载了。于是我直接去找了twisted对应版本的whl文件(Word Cloud-1 . 3 . 2-cp36-CP36M-WIN _ amd64)。CP是Python版本,AMD64代表64位。然后Windows R打开cmd,执行命令:pip安装完整路径\ word cloud-1 . 3 . 2-cp36-cp36m-win _ amd6。
需要注意的是,WordCloud默认不支持中文,你需要去网上的中文字体下载,下载一个好的中文字体库。我下载了微软雅荷。
否则,显示英文字体时不会出现错误,但显示中文字符时会出现以下画面。
结巴分词介绍1。中文和英文都可以分词。
2.支持自定义词典。
六、WordCloud图片学习总结没有自定义背景图片,需要指定word cloud的像素宽度和高度来确定Word Cloud图片大小;
有一个自定义的背景图片,背景图片的像素大小决定了字云图片大小。
突然开始对Python能做的很多有趣的事情越来越感兴趣(*)。
然后接触了几个数据分析领域常用的Python库,比如Numpy,MatPlotlib,pandas等等。
所以,我想关注这个过程:
了解Python 3基础知识
学习数字
学习熊猫
学习材料
七。互联网在线词云制作工具不翻墙:Tagul目前正在试用,感觉词频分析有问题。让我们看一看。
翻墙:Tagxedo在业内享有较高的声誉,操作界面为英文。改天试试吧。
9个优秀的词云图免费生成工具介绍
国内外5款经典词云工具测评
看百度上的单词云图:
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。