python 教程 百度云,python编程 百度网盘
无意中在网上看到了语言云,觉得很有意思。我写了自己的程序来显示它。
据百度报道,“会说话的云”这一概念是由美国西北大学新闻学副教授、新媒体专业主任里奇戈登(Rich Gordon)最近提出的。戈登是一名编辑、记者,也是《迈阿密先驱报》新媒体版的主管。他一直在关注网络内容发布的最新形式,这种形式只能在网上采用,而报纸、广播、电视等媒体却无法企及。通常,这些最新的、最适合互联网的交流方式也是最好的交流方式。所以“云”是指通过视觉上强调网络上文本中出现频率较高的“关键词”,形成“关键词云”或“关键词渲染”,从而过滤大量文本信息,形成网络。
但是安装包很麻烦,内网网速很慢,时间长了爬不出来。后来查了资料,他说国产服务器镜像会更快:
pipdownloadmatplotlib-I https://pypi.tuna.Tsinghua.edu.cn/simple
pipinstallmatplotlib-I https://pypi.tuna.Tsinghua.edu.cn/simple
Python 3.6开发,一个文本分析的数据被填充,代码被旋转,略有改动。感谢原作者。
分词工具使用口吃分词https://www.oschina.net/p/jieba.
#编码:utf-8
#为了统计字数并在云端显示
#导入警告
# warnings . filter warnings(( ignore))))))))))).
导入jieba #分词包
导入编号#编号计算包
由import codecs #codecs提供的open方法指定打开文件的语言编码,并且在读取时自动转换为内部unicode。
进口re
进口熊猫作为PD
将matplotlib.pyplot作为plt导入
从urllib导入请求
从bs4导入美丽的汤作为bs
#% matplotlib处于联机状态
导入矩阵
matplotlib . RC params[ figure . fig size ]=(30.0,15.0)
从word cloud导入word cloud # cloud包
defmain(:)
f=open(R1.txt)、(r)))
comments=f.read()。strip)).
f.close()
#使用正则表达式删除标点符号
pattern=re . com pile(r [\ u4e 00-\ u9fa 5]))
Filter=re.find all(模式,注释))。
Cleaned _ comments=“”。联接(筛选数据)
(中文分词用口吃分词。
segment=Jie ba . lcut(cleaned _ comments))。
words _ df=PD . data frame({ segment :segment } })
#消除停用词
stop words=PD . read _ CSV(stop words . txt),index_col=False,quoting=3,sep=\t ,names=[stopword]
words _ df=words _ df[~ words _ df . segment . isin(停用词.停用词)]
#数单词的数量
words _ stat=words _ df . group by(by=[ segment ]( segment )。agg ({count: number.size}))。
words _ stat=words _ stat . reset _ index(。sort _ values (by=[count],升序=False)))
#在云端展示
词云=词云(font _ path= simhei。TTF ,background_color=white ,max_font_size=100))
word _ frequency={ x[0]:x[1]for Xin words _ stat . head(1000)。价值观}
word _ frequency _ list=[]
# for key in word _ frequence:
#temp=(key,word _ frequency[key])))))))))).
# word _ frequence _ list.append(临时)
单词云=word cloud . fit _ words(word _ frequency)
PLT.imshow(wordcloud))。
plt.show())
#保存图像
word cloud . to _ file(work order . png))。
#主要功能
Master())
结果如下。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。