,,Python中jieba库的使用方法

,,Python中jieba库的使用方法

解霸库是一个优秀的Python第三方中文分词库。主要介绍了Python中解霸库的用法,有一定的参考价值,感兴趣的朋友可以参考一下。

目录

一、界坝图书馆二安装。洁霸III三种模式的使用。街霸分词的简单应用。扩展:英文单词统计jieba库是一个优秀的Python第三方中文分词库。杰霸支持三种分词模式:精准模式、全模式、搜索引擎模式。以下是三种模式的特点。

精确模式:尽量把句子分割得最精确,没有冗余数据,适合文本分析。

全模式:把一个句子中所有可能是词的词都切掉,速度快,但是有冗余数据。

搜索引擎模式:在精确模式的基础上,对长词进行再次切分。

一、jieba库的安装

因为解霸是第三方库,所以需要本地安装。

在Windows下,使用命令安装:在联网状态下,在命令行输入pip install jieba进行安装,安装完成后会提示安装成功。

在pyCharm中安装:打开设置,搜索Project Interpreter,在右边窗口选择编号,在搜索框中点击搜索jieba,点击安装。

二、jieba三种模式的使用

# -*-编码:utf-8 -*-

进口洁霸

好好学习,天天向上。

打印('/')。join(jieba . lcut(seg _ str))# reduced mode,返回列表类型的结果。

打印('/')。join (jieba.lcut (seg _ str,cut_all=True)) #完整模式,用' cut_all=True '指定

打印('/')。join(jieba . lcut _ for _ search(seg _ str)))#搜索引擎模式

分词效果:

三、jieba 分词简单应用

要求:用解霸分词对一段文字进行分词,统计出现频率最高的词。这里以三国演义为例。

# -*-编码:utf-8 -*-

进口洁霸

Txt=open('三国演义. Txt ',' r ',编码=' UTF-8 ')。阅读()

Words=jieba.lcut(txt) #使用精确模式分割文本。

Counts={} #以键值对的形式存储单词及其出现的次数

逐字逐句:

Len (word)==1: #单个单词不计算在内

继续

否则:

Counts [word]=counts.get (word,0) 1 #遍历所有的单词,每出现一次对应的值就加1。

items=list(counts.items())

Items.sort (key=lambda x: x [1],reverse=true) #按单词出现的次数排序。

对于范围(3)中的I:

word,count=items[i]

打印(“{0:5}{1:5}”。格式(字数、字数)

统计结果:

你可以找到任何文本文档,或者你可以去https://github.com/coderjas/python-quick下载上面例子中的文档。

四、扩展:英文单词统计

以上例子说明,中文文档中出现的词最多。那我们就来统计一下一篇英文文档的字数最多。原理同上

# -*-编码:utf-8 -*-

def get_text():

txt=open('1.txt ',' r ',编码='UTF-8 ')。阅读()

txt=txt.lower()

为ch in '!'#$%()* ,-./:=?@[\\]^_'{|}~':

Txt=txt.replace(ch,' ')#用空格替换文本中的特殊字符。

返回文本

file_txt=get_text()

Words=file_txt.split() #拆分字符串得到单词列表

计数={}

逐字逐句:

如果len(word)==1:

继续

否则:

计数[word]=计数. get(word,0) 1

items=list(counts.items())

items.sort(key=lambda x: x[1],reverse=True)

对于范围(5)中的I:

word,count=items[i]

打印(' {0:5}-{1:5} ')。格式(字数、字数)

统计结果:

关于在Python中使用jieba库的这篇文章就到这里了。有关Python中的Jieba库的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望你以后能支持我们!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: