python jieba库分词,jieba是一个Python语言实现的中文分词组件
解霸库是一个优秀的Python第三方中文分词库。洁霸支持:精准模式、全模式、搜索引擎模式三种分词模式。下面文章主要介绍Python第三方库和中文分词的相关信息。有需要的可以参考一下。
00-1010一、什么是解霸库二、解霸分词原理三。洁霸库1支持的三种分词模式。精确模式2。完全模式3。搜索引擎模式4。jieba库的常用功能五、jieba实用练习一(jieba.lcut)精确模式练习二(jieba.lcut(s,Cut_all=True))全模式练习三(jieba.lcut_for_search)搜索引擎模式练习四(jieba.add_word(w))新增一个单词摘要。
目录
Jieba是一个优秀的第三方中文分词库。由于每个汉字都是在中文文本之间连续书写的,我们需要通过特定的手段来获取每个短语,这就是所谓的分词。我们可以通过解霸库来完成这个过程。
一、什么是jieba库
洁霸库的分词原理是使用一个中文词库,将待分词的内容与词库进行比较,通过图结构和动态规则划分的方法找到概率最高的短语。除了分词,jieba还提供添加自定义中文单词的功能。
二、jieba分词原理
三、jieba库支持的三种分词模式
最精准的分句,适合文本分析;
1.精确模式
扫描一个句子中所有能成词的词,速度很快,但解决不了歧义;
2.全模式
在精确模式的基础上,对长词进行再次切分,提高召回率,适用于搜索引擎切分。
注:中文分词,解霸库只需要一行代码。英文文本不存在分词问题。
3.搜索引擎模式
该函数描述jieba.lcut(s)确切模式,返回jieba.lcut(s,cut_all=True)完整模式的列表值、jieba.lcut_for_search(s)搜索引擎模式的列表值以及jieba.add_word(w)的列表值,以将新单词w添加到分词词典中。
四、jieba库常用函数
首先,你需要安装解霸库。
pip安装街霸
五、jieba实操
Jieba.lcut(s)是最常用的中文分词功能,用于精确模式将一个字符串分割成等价的中文短语。
进口洁霸
Ls=jieba.lcut(我想穿过明亮的星星)
打印(ls)
练习一(jieba.lcut)精确模式
Jieba.lcut(s,cut_all=True)在全模式下使用,列出一个字符串所有可能的分词,冗余度最大。
进口洁霸
Ls=jieba.lcut(不知人往何处去,桃花依旧笑傲春风,cut_all=True)
打印(ls)
练习二(jieba.lcut(s,cut_all=True) )全模式
Jieba.lcut_for_search这个模式首先执行精确模式,然后进一步划分长词得到最终结果。
进口洁霸
Ls1=jieba.lcut(笑对苍天出门,是我们这一代蒿人)
Ls=jieba.lcut_for_search(笑对苍天出门,是我们这一代蒿人)
打印(ls1)
打印(ls)
练习三(jieba.lcut_for_search)搜索引擎模式
进口洁霸
Ls=jieba.lcut_for_search(笑对苍天出门,是我们这一代蒿人)
打印(ls)
Jieba.add_word(茵陈蒿)
Ls1=jieba.lcut(笑对苍天出门,是我们这一代蒿人)
打印(ls1)
摘要:精确模式最常用,因为它不会产生冗余。
练习四(jieba.add_word(w))增加新词
关于Python的第三方库jieba库和中文分词的这篇文章到此为止。关于Pythonjieba库和中文分词的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。