词云制作方法,词云图怎么用

  词云制作方法,词云图怎么用

  在数据行业多年,从前端UI到中间服务层反复工作,最后连数据库存储都没能幸免。迄今为止,它一直被数据库和数据库应用程序体系结构深深吸引。

  之前面试很多数据岗位的时候,面试官反复问的问题是“你喜欢做ETL,数据模型还是数据可视化?”

  其实这个问题在我看来一点标准都没有。在数据行业,怎么能说自己特别偏爱某一门学科呢?这么多精彩的技术和引人入胜的问题不都是自己做的,一点也不可惜。

  别让贫乏无味的工作,限制了自己的想象力,嗯!

  写了多年的CSDN博客,已经有近30W的访问量了。这两天突然想爬到一边去。你对哪些文章和技术感兴趣?于是有了下面这个故事。

  Python作为一种万能药,已经渗透到了计算机软件的各个领域,在每一个可插入的缝隙中都有这样一只脚,尤其是在数据分析领域。可谓“人生苦短,快用Python”。快速启动一个爬虫,抓取简单的网站(CSDN不简单,呵呵,留点面子给ssdld),这是3-5个小时就能搞定的事情。将结果保存在MySQL中。

  简单筛选出1K以上浏览量的帖子,做词频统计,放入词云工具进行分析。文本挖掘在词频方面似乎比较有趣,可以扩展到做相关推荐。

  试用了知乎高票的词云工具。时间是一个有效的过滤器,帮助我们提炼出很多优秀的产品。这么多工具,最后能看到的(基于视觉效果和易用性)花了一个小时,其中三个可以用:

  照片:

  非常快速和可用的单词云工具。简单到离谱。只要你粘贴你的文本,你就会立即显示你自己定制的单词云。如果对水印和精细度没有特别的要求,这个就够了。在使用过程中,不尽如人意的是对于中英文混合的文章会直接省略英文,如下图所示:

  BlueMc:

  蓝色光标。这家公司提供的word云工具极其强大(他老板也很厉害很有感情!作为个人,我们可以申请免费试用他的产品。这个工具支持中英文混合。好东西需要打磨。这个工具会告诉你在生成字云之前需要等待。那不是很甜蜜吗?生成的效果图,默认色系很暖,我推断产品经理是个好MM。

  r:

  没错,就是分析武器,媲美SAS的大R!这里应该有掌声,欢迎欣赏小编的我!看完下面还可以生成同样的文字云图,或者R版,效果完全可以控制。改装跑车和驾驶奔驰的乐趣有天壤之别。

  r使用以下步骤制作单词云:

  1分词

  2词频统计

  3情节

  分词:有各种分词算法,包括公有包和私有包。像JiebaR这样的包非常好用,对中文的支持度也很高。但是a qseg对中文的支持好像很差,花了很长时间才搞定。

  JieBaR在Github有一个分支,文档非常干净:http://qinwenfeng.com/jiebaR/.

  install.packages("jiebaR ")

  图书馆(街吧)

  mySeg=worker()

  mySeg$bylines=FALSE

  texts=readLines(" G:\ side projects \ all _ titles . txt ",encoding="UTF-8 ")

  newsegreult=segment(texts,mySeg)

  merged=s apply(newsegregsult,function(x){ paste(x,collapse=" "))

  注意:先引入包jiebaR,然后实例化段,对文本进行分割合并。

  2词频统计:

  使用freq对分词的合并结果进行统计。字云可视化程序只能识别和显示计算出的结果。

  频率(合并)

  注:freq是分词的词频统计。

  3情节:

  https://github.com/lchiffon/wordcloud2

  首先安装devtools库

  库(开发工具)

  dev tools:install _ github(" lchiffon/word cloud 2 ")

  wordcloud2(频率(合并),大小=1,形状=星形)

  与R相比,它的功能更强大,适应性更强,兼容各种语言,可以设置过滤词(“的”字其实可以通过配置过滤掉)。

  欢迎关注微信微信官方账号【关于SQL】,入群讨论技术。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: