基于python的金融分析,python文本数据分析案例
SnowNLP是中国人开发的python类库,可以方便地处理中文文本内容。是受TextBlob的启发写的。因为现在大部分的自然语言处理库基本都是针对英文的,所以写了一个可以方便处理中文的类库。与TextBlob不同,这里不使用NLTK,所有的算法都是自己实现的,还附带了一些训练好的字典。注意,本程序全是unicode编码,使用时请自行解码成unicode。在麻省理工学院许可下发行。
它的github主页
我自己修改了上面连接中的python代码,并添加了一些注释以方便您的理解:html
来自snownlp importsnowlp # snownlp库:#单词:分词#标签:关键词#感伤#拼音:拼音#关键词(极限):关键词#摘要:关键句子#句子:语序# TF: TF值# IDF: IDF值
S=SnowNLP(u 这东西真牛逼)#s.words # [u this ,u something ,u 真诚,u 非常,u 喜欢]
打印(单词)
S.tags#[(u this ,ur ),(u things ,un ),(U 诚意,ud)#,(u very ,ud ),(U 赞,U VG
打印(s .感悟)# S .感悟# 0.976963402895832正概率# S .拼音# [U 浙、U 格、U 东、U xi 、# U 真、U 新
‘s=snow NLP(u)‘繁体中文’和‘繁体中文’在台湾省也很常见。’)# s . Han # u‘繁体字’、‘繁体字’在台湾省也很普遍。”
印刷品(韩文)
从SnowNLP导入snownlp
Text=u 自然语言处理是计算机科学和人工智能领域的一个重要方向。
它研究用自然语言实现人与计算机之间有效交流的各种理论和方法。
自然语言处理是一门融合了语言学、计算机科学和数学的科学。
因此,这方面的研究将涉及自然语言,即人们常用的语言,
因此,它与语言学的研究密切相关,但又有重要的区别。
自然语言处理不是通常的自然语言研究,
而是开发一个能有效实现自然语言交流的计算机系统,
尤其是软件系统。所以它是计算机科学的一部分。s=snownlp(text)print(s . keywords(6))#[u language ,u natural ,u computer]不能使用标签输出关键字。
S.summary(3) #[u 所以它是计算机科学的一部分,u 自然语言处理是集语言学、计算机科学和#数学为一体的科学,u 自然语言处理是计算机科学和人工智能领域的重要方向]s.sentences#print(s.sentences)
印刷(情感)#1.0
S=SnowNLP([[u this ,u article],
[u that ,U paper,
[U this ])# print(s . TF)# print(s . IDF)# print(s . SIM([U article ])#[0.37629 . 852226,0]
在编译和运行之前,必须先安装snownlp包,然后是pylab,pandas Pandas模块:
在VS代码终端(查看-集成终端)中输入:
pip安装snownlppython
pip安装pylabgit
pip安装熊猫
如果安装了pip,可以查看我之前的文章github如果没有安装pip。
在VS代码中,我们可以右击模块名查看定义,然后就可以看到模块的实现了。不得不说VS代码很厉害,希望微软能这样走下去,走向开源和跨平台!
然后我随机抽取《心灵捕手》豆瓣网评放在txt: algorithm里。
事实上,在大多数情况下,mainland China的译名比香港的更有趣。
这不是你的错!
我只是偶尔在电视上看到这部电影,看的时候真的很感动。为什么会有这么有才华的人有这么曲折的人生?
我觉得剧本很好,但是还没有完全拍出来:)对演员的表现还是有些怀疑的~呵呵
好评
前几天刚看的,一部触及灵魂的电影,寻找真实的生活。
这个影评很好,我眼眶湿润了。
非常好的电影app
最后是加工程序:编码。
从snownlp importsnownlimportpandas as pdimportpylab as pl
txt=open( F:/_ analyze _ emotion . txt )
text=txt.readlines()
Txt.close()print(成功读入)
句子=[]
senti_score=[]for i intext:
a1=SnowNLP(i)
a2=a1 .感悟
句子.附加(i)#词序.
senti _ score。附加(a2)打印(做)
表=pd .数据帧(句子,senti _ score)#表。to _ excel( F:/_ analyze _ emotion。xlsx ,sheet_name=Sheet1)#ts=pd .系列(句子,senti _ score)# ts=ts。累计()#打印(表格)
x=[1,2,3,4,5,6,7,8]
地方mpl。RC params[ font。sans-serif ]=[ sim hei ]
pl.plot(x,senti_score)
项目名称(u心灵捕手网评)
pl.xlabel(u 评论用户)
pl.ylabel(u 情感程度)
pl.show()
最后的效果:人工智能
可能有些不许确,我也是随便提取的数据,不过snownlp仍是号称情感分析准确很高的!矿泉
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。