python生成词云图,特殊图形,如何用python画出好的词云图
目录叙词表-—杰霸生成的词云库-词云
什么是云词图,比如这张,是显示大量词经过处理后出现的词的图。
词库-—jieba jieba是一个优秀的中文分词库安装jieba:pip install jieba。
支持三种分词模式:
精准模式:尽量把句子切的最精准,适合文本分析;
jieba . cut(s)-精确模式,返回迭代数据类型。
全模式:扫描出一个句子中所有能成词的词,速度很快,但无法解决歧义;
Jieba.cut(s,cut_all=True )—完整模式,输出文本s中所有可能的单词。
搜索引擎模式:在精确模式的基础上,对长词进行再次切分,提高召回率,适用于搜索引擎切分。
Jieba.cut_for_search(s)—搜索引擎模式,适用于搜索引擎索引的分词结果。
jieba的功能不只是分词添加自定义词典
开发人员可以指定他们自己的自定义词典来包含不在jieba词库中的单词。虽然解霸有识别新词的能力,但是自己添加新词可以保证更高的准确率。
用法:jieba . load _ user dict(file _ name)# file _ name是自定义词典的路径。
字典格式和dict.txt一样,一个字占一行;每行分为三部分,一部分是单词,另一部分是词频,最后一部分是词性(可以省略),用空格隔开。
词性标注
分词后标注每个词的词性,采用兼容ictclas的标注方式。
用法示例
关键词提取
Jieba.analyze . extract _ tags(sentence,topk) #你需要先导入jieba . analyze。
Setence是要提取的文本。
TopK是TF/IDF权重最大的关键字,默认值为20。
生成词云库-—word cloud安装:pip install wordcloud010-590数值计算库:pip install numpy。这里提到这个模块,主要用于数据分析绘图库:pip install matplotlib。这个模块可以制作我们的图表(数据可视化)和过程图片。
然后我们会写一个demo,我们会分析《大田后出生》这首歌的歌词做一个词云。
歌词没发,就在网上抄了…
注意:word云图默认不支持中文,需要我们自己导入字体,否则我们的中文字体会显示为口口口,字体可以自己复制到系统中:C:\Windows\Fonts。您可以将字体复制到项目中,或者在font_path中添加完整路径。
注意:单词云图默认为矩形。如果想要不同的形状,需要自己添加透明图形贴图。
导入jiebafrom word cloud导入word cloud导入matplotlib.py plot as plt导入numpy as NP from pil导入图片tr=open (lyrics.txt , r ,编码=UTF-8 )。阅读()。替换( , )。替换(:, )。替换( \n , )。replace(:,)list1=jieba.lcut (str) lists= 。Join (list1) #指定云词模板图片=NP . array(image . open( QQ . jpg )#使用WordCloud显示云词WC=word cloud(font _ path= msyh . TTC ,width=800,height=400,mask=image,background _ color= white )WC . generate(lists)# drawing,无需绘制直接保存图片的最终结果图PLT . im show(WC)PLT . axis( off )PLT . show()# saving
结束…
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。