解霸库是一个优秀的Python第三方中文分词库。主要介绍了Python中解霸库的用法,有一定的参考价值,感兴趣的朋友可以参考一下。
目录
一、界坝图书馆二安装。洁霸III三种模式的使用。街霸分词的简单应用。扩展:英文单词统计jieba库是一个优秀的Python第三方中文分词库。杰霸支持三种分词模式:精准模式、全模式、搜索引擎模式。以下是三种模式的特点。
精确模式:尽量把句子分割得最精确,没有冗余数据,适合文本分析。
全模式:把一个句子中所有可能是词的词都切掉,速度快,但是有冗余数据。
搜索引擎模式:在精确模式的基础上,对长词进行再次切分。
一、jieba库的安装
因为解霸是第三方库,所以需要本地安装。
在Windows下,使用命令安装:在联网状态下,在命令行输入pip install jieba进行安装,安装完成后会提示安装成功。
在pyCharm中安装:打开设置,搜索Project Interpreter,在右边窗口选择编号,在搜索框中点击搜索jieba,点击安装。
二、jieba三种模式的使用
# -*-编码:utf-8 -*-
进口洁霸
好好学习,天天向上。
打印('/')。join(jieba . lcut(seg _ str))# reduced mode,返回列表类型的结果。
打印('/')。join (jieba.lcut (seg _ str,cut_all=True)) #完整模式,用' cut_all=True '指定
打印('/')。join(jieba . lcut _ for _ search(seg _ str)))#搜索引擎模式
分词效果:
三、jieba 分词简单应用
要求:用解霸分词对一段文字进行分词,统计出现频率最高的词。这里以三国演义为例。
# -*-编码:utf-8 -*-
进口洁霸
Txt=open('三国演义. Txt ',' r ',编码=' UTF-8 ')。阅读()
Words=jieba.lcut(txt) #使用精确模式分割文本。
Counts={} #以键值对的形式存储单词及其出现的次数
逐字逐句:
Len (word)==1: #单个单词不计算在内
继续
否则:
Counts [word]=counts.get (word,0) 1 #遍历所有的单词,每出现一次对应的值就加1。
items=list(counts.items())
Items.sort (key=lambda x: x [1],reverse=true) #按单词出现的次数排序。
对于范围(3)中的I:
word,count=items[i]
打印(“{0:5}{1:5}”。格式(字数、字数)
统计结果:
你可以找到任何文本文档,或者你可以去https://github.com/coderjas/python-quick下载上面例子中的文档。
四、扩展:英文单词统计
以上例子说明,中文文档中出现的词最多。那我们就来统计一下一篇英文文档的字数最多。原理同上
# -*-编码:utf-8 -*-
def get_text():
txt=open('1.txt ',' r ',编码='UTF-8 ')。阅读()
txt=txt.lower()
为ch in '!'#$%()* ,-./:=?@[\\]^_'{|}~':
Txt=txt.replace(ch,' ')#用空格替换文本中的特殊字符。
返回文本
file_txt=get_text()
Words=file_txt.split() #拆分字符串得到单词列表
计数={}
逐字逐句:
如果len(word)==1:
继续
否则:
计数[word]=计数. get(word,0) 1
items=list(counts.items())
items.sort(key=lambda x: x[1],reverse=True)
对于范围(5)中的I:
word,count=items[i]
打印(' {0:5}-{1:5} ')。格式(字数、字数)
统计结果:
关于在Python中使用jieba库的这篇文章就到这里了。有关Python中的Jieba库的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望你以后能支持我们!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。