词云制作方法,词云图怎么用
在数据行业多年,从前端UI到中间服务层反复工作,最后连数据库存储都没能幸免。迄今为止,它一直被数据库和数据库应用程序体系结构深深吸引。
之前面试很多数据岗位的时候,面试官反复问的问题是“你喜欢做ETL,数据模型还是数据可视化?”
其实这个问题在我看来一点标准都没有。在数据行业,怎么能说自己特别偏爱某一门学科呢?这么多精彩的技术和引人入胜的问题不都是自己做的,一点也不可惜。
别让贫乏无味的工作,限制了自己的想象力,嗯!
写了多年的CSDN博客,已经有近30W的访问量了。这两天突然想爬到一边去。你对哪些文章和技术感兴趣?于是有了下面这个故事。
Python作为一种万能药,已经渗透到了计算机软件的各个领域,在每一个可插入的缝隙中都有这样一只脚,尤其是在数据分析领域。可谓“人生苦短,快用Python”。快速启动一个爬虫,抓取简单的网站(CSDN不简单,呵呵,留点面子给ssdld),这是3-5个小时就能搞定的事情。将结果保存在MySQL中。
简单筛选出1K以上浏览量的帖子,做词频统计,放入词云工具进行分析。文本挖掘在词频方面似乎比较有趣,可以扩展到做相关推荐。
试用了知乎高票的词云工具。时间是一个有效的过滤器,帮助我们提炼出很多优秀的产品。这么多工具,最后能看到的(基于视觉效果和易用性)花了一个小时,其中三个可以用:
照片:
非常快速和可用的单词云工具。简单到离谱。只要你粘贴你的文本,你就会立即显示你自己定制的单词云。如果对水印和精细度没有特别的要求,这个就够了。在使用过程中,不尽如人意的是对于中英文混合的文章会直接省略英文,如下图所示:
BlueMc:
蓝色光标。这家公司提供的word云工具极其强大(他老板也很厉害很有感情!作为个人,我们可以申请免费试用他的产品。这个工具支持中英文混合。好东西需要打磨。这个工具会告诉你在生成字云之前需要等待。那不是很甜蜜吗?生成的效果图,默认色系很暖,我推断产品经理是个好MM。
r:
没错,就是分析武器,媲美SAS的大R!这里应该有掌声,欢迎欣赏小编的我!看完下面还可以生成同样的文字云图,或者R版,效果完全可以控制。改装跑车和驾驶奔驰的乐趣有天壤之别。
r使用以下步骤制作单词云:
1分词
2词频统计
3情节
分词:有各种分词算法,包括公有包和私有包。像JiebaR这样的包非常好用,对中文的支持度也很高。但是a qseg对中文的支持好像很差,花了很长时间才搞定。
JieBaR在Github有一个分支,文档非常干净:http://qinwenfeng.com/jiebaR/.
install.packages("jiebaR ")
图书馆(街吧)
mySeg=worker()
mySeg$bylines=FALSE
texts=readLines(" G:\ side projects \ all _ titles . txt ",encoding="UTF-8 ")
newsegreult=segment(texts,mySeg)
merged=s apply(newsegregsult,function(x){ paste(x,collapse=" "))
注意:先引入包jiebaR,然后实例化段,对文本进行分割合并。
2词频统计:
使用freq对分词的合并结果进行统计。字云可视化程序只能识别和显示计算出的结果。
频率(合并)
注:freq是分词的词频统计。
3情节:
https://github.com/lchiffon/wordcloud2
首先安装devtools库
库(开发工具)
dev tools:install _ github(" lchiffon/word cloud 2 ")
wordcloud2(频率(合并),大小=1,形状=星形)
与R相比,它的功能更强大,适应性更强,兼容各种语言,可以设置过滤词(“的”字其实可以通过配置过滤掉)。
欢迎关注微信微信官方账号【关于SQL】,入群讨论技术。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。