jieba是Python中一个重要的标准函数库,jieba模块有什么用

  jieba是Python中一个重要的标准函数库,jieba模块有什么用

  本文主要介绍对python中解霸模块的深入理解。解霸模块是python第三方中文分词模块,可以用来从句子中分离出中文单词。

  一.导言二模块III的安装。解霸模块3.1分词模式详解3.2cut(),lcut () 3.2.1cut (sentence,cut _ all=false,hmm=true,use _ paddle=False)3.2 . 2 cut(sentence,cut _ all=False)3.3 cut _ for _ search()、lcut _ for _ search()3.4 add _ word(self,word,freq=None,tag=None)3.5 del _ word(word)3.6 suggest _ freq(segment,Tune=false) 3.7 tokenize所需代码的显示与总结

  

目录

 

  英语单词是用空格隔开的,而中文没有空格的概念,所以需要一个模块来解决中文分词的问题。解霸模块是python第三方中文分词模块,可以用来把句子中的中文词拆分成.

  另外,全国计算机等级考试二级的python语言编程也涉及到这个模块的相关知识。所以你可以很好的理解这个模块。

  

一、前言

 

  解霸模块作为python的第三方模块,需要自己下载安装才能使用。我们主要用pip安装工具jieba的安装.具体步骤如下:

  在windows操作系统中,快捷键win+R,

  然后,输入cmd,点击确定打开它。

  输入:

  pip安装街霸

  安装成功。

  

二、模块的安装

 

  

三、jieba模块具体讲解

 

  jieba模块支持三种分词模式:全模式、精准模式以及搜索引擎模式。

  全模式:模式可以是将句子中所有可能的词语全部提取出来,可以快速提取,但冗余词汇可能会出现。

  如图,第一行出现冗余词,采用全模式,第二行采用精确模式。

  精准模式:精确模式通过优化的智能算法对句子进行精确分割,适用于文本分析.

  搜索引擎模式:搜索引擎模型在精确模型的基础上再次分词,提高召回率适用于搜索引擎的分词。

  

3.1分词模式

 

  

3.2cut()、lcut()

 

  paddle=False)

  参数解析:

   sentence:要分割的str(unicode)。

   cut_all:模型类型。True 表示全模式,False 表示精准模式。其默认为精准模式。

   HMM:是否使用隐马尔可夫模型。

  函数功能:

  

The main function that segments an entire sentence that contains Chinese characters into separated words.

 

  将包含汉字的整个句子分割成单独的单词的主要功能。

  

import jieba

 

  

 

  

print(type(ls))

 

  

  

 

  如图,其是迭代器类型,可以用以下三种方式显示结果

  ①' '.join()

  

# ①.join

 

  

 

  ②for循环遍历

  

# ②for循环遍历

 

  

 

  ③列表推导式

  

# ③列表推导式

 

  

 

  

 

  

3.2.2lcut(sentence,cut_all=False)

 

  

 def lcut(self, *args, **kwargs):

 

  查看jieba模块,其定义lcut()函数如上,可以发现lcut()函数最终返回的是list(cut())

  

import jieba

 

  结果如下 :

  

 

  

注意:cut_all=False是精准模式,也是其默认的类型。

 

  

 

  

 

  

3.3cut_for_search()、lcut_for_search()

 

  cut_for_search(sentence, HMM=True)和lcut_for_search(sentence, HMM=True)和上面所讲的类似。其都是对搜索引擎进行更精细的细分,即采用搜索引擎模式。

  

import jieba

 

  

 

  

 

  

3.4add_word(self, word, freq=None, tag=None)

 

  

Add a word to dictionary.

 

  

  • 函数功能:在字典中添加一个单词。

  • 参数解析:freq 和 tag 可以省略,freq 默认是一个计算值,保证单词可以被切掉。

 

  

import jieba

 

  

 

  结果如上,最终最好的就没有被切掉。

  

 

  

3.5del_word(word)

 

  

函数功能:分词词典中删除词word

 

  

 

  

import jieba

 

  

 

  不过经过笔者更改word,发现word是编程语言时,最后就分割成了编程和语言;当word是编程时,结果没变化;当word是python时,结果也没变化。因此有些需要笔者自己去尝试。

  

 

  

3.6suggest_freq(segment, tune=False)

 

  

 """

 

  

  • 函数功能:建议词频,强制将单词中的字符合并或拆分。

  • 参数解析:

    • segment :该单词预期被切割成的片段,如果该单词应该被视为一个整体,则使用str。

    • tune : 如果为True,则调整词频。

 

  

注意:HMM可能会影响最终结果。如果结果不变,设置HMM=False。

 

  

 

  

 

  

3.7tokenize(unicode_sentence, mode="default", HMM=True)

 

  

 """

 

  

  • 函数功能:标记一个句子并产生 (word, start, end) 的元组

  • 参数解析:

    • unicode_sentence:要分割的 str(unicode)。

    • 模式:"default" or "search", "search" is for finer segmentation. 默认或搜索,搜索用于更精细的分割。

    • HMM: 是否使用隐马尔可夫模型。

 

  

 

  

四、所需代码展示

 

  

# -*- coding: utf-8-*-

 

  需要的可以自行复制

  

 

  

五、总结

 

  

  • ①全国计算机等级考试二级python语言程序设计中涉及到的内容一般只是分词模式、lcut()、lcut_for_search()和add_word()这几方面知识;

  • ②笔者所写的不是特别详细,要是之后有好的案例或者其他方式,会进行添加以及完善3.6,3.7的内容;

  • ③该模块的理解与使用不是特别难,希望大家自己动手试试,找几个案例,敲敲代码!!

 

  到此这篇关于python中jieba模块的深入了解的文章就介绍到这了,更多相关python jieba 内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: