jieba库是python内置函数库,可以直接使用,Python中jieba库
解霸库作为python中的第三方库,平时很实用。比如有的网站用杰霸库的中文分词来搜索关键词。
一、安装环境
窗口python
二、安装方式
直接在计算机命令(cmd)中写以下语句:pip install jieba。
三、jieba库分词的基本原理
1.利用汉语词表,分析汉字之间的关联概率。
2.还有汉字词组的联想概率分析。
3.也可以根据用户自定义短语进行分析。
四、jieba库三种模式和对应的三个函数
精确模式:文本切割准确,无多余文字(即切割后的精确组合)。
全模式:扫描出文本中所有可能有冗余的单词。
就是可能有一段文字,可以从不同的角度切入,变成不同的文字。在整个模式中挖掘出不同的单词。
搜索引擎模式:在精确模式的基础上,再次切分长词。
该函数对应于lcut (s)精确模式,无冗余lcut(s,cut _ all=true)完全模式,具有冗余长短语lcut_for_search(s)搜索引擎模式,具有冗余长短语,例如:
以上是杰霸图书馆的一些基础知识。
动词(verb的缩写)街霸图书馆词频统计实例
利用街霸库查找文章中的关键词
1.首先将文章保存为记事本的txt文件。
2.使用口吃库
代码如下:
1导入jieba 2 txt=open(jiebatxt.txt , r ,编码=GBK )。read() #读取保存的txt文档3 words=jieba . lcut(txt)# divide words 4 counts={ } 5 for word in words:6 iflen(word)==1:#去掉标点字符等单个字符7 continue 8 else:9 counts[word]=counts . Get(word,0)1 # count 10 items=list(counts . items())#将对象对象转换为列表形式,下面的操作11 12 #sort()函数用于对原列表进行排序。如果指定了参数,则使用比较函数指定的比较函数13 #反向排序规则,reverse=True降序排列。Reverse=False升序(默认值)14 #key是参数15 16 items . sort(key=lambda x:x[1],reverse=true)17 for I in range(10):18 word,count=items[I]19 print( { 0:10 } { 1:1
还有字云图像显示。有关详细信息,请访问以下链接:
https://www.cnblogs.com/liyanyinng/p/10652472.html
你可以先看到效果:
转载于:https://www.cnblogs.com/liyanyinng/p/10958791.html
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。