python的jieba库功能,python的jieba库教程

  python的jieba库功能,python的jieba库教程

  一、找公文1。百度(全球最大的中文搜索引擎)

  https://pypi.org/project/jieba/

  2.完整文件:https://github.com/fxsjy/jieba

  二。导言1。简介jieba(中文意为“口吃”)中文文本切分:制作最好的Python中文分词模块。

  2.特性支持四种分词模式:精准模式,尽量最精准的切句,适合文本分析;全模式,扫描一个句子中所有能成词的词,速度很快,但解决不了歧义;搜索引擎模式,在精确模式的基础上,再次切分长词,提高召回率,适用于搜索引擎切分。Paddle模式,利用PaddlePaddle深度学习框架和训练序列标注(双向GRU)网络模型实现分词。还支持词性标注。Paddle Paddle-tiny,pip安装paddle paddle-tiny==1.6.1,需要安装后才能使用paddle模式。目前paddle模式支持杰霸v0.40及以上版本。Jiba版本低于0.40,请升级jieba,pip安装jieba -升级。PaddlePaddle官网支持传统分词和自定义词典MIT授权协议。

  三。主要功能1。分块1.1前三个分词模式case导入jiebastring=中华人民共和国(PRC)是一个伟大的国家 #精确模式aa=jieba.lcut(string) #相当于:jieba.lcut(string,Cut_all=False)是否切分所有case=no print(aa)#全模式aa=jieba.lcut(string,cut _ all=true) #是否切分所有case=yes print(aa)#搜索引擎模式(在精确模式的基础上,再次切分长词)aa=jieba

  [中华人民共和国,是,一,伟大,我,国家]

  [中国,中国人民,中华人民共和国,中国人,人民,中华人民共和国,共和国,中国,一,伟大,国家]

  [中国,中国人,人民,共和国,中华人民共和国,是,一,伟大,国家]

  1.2相似方法原理:从源代码来看,lcut()是列表中cut()返回的数据。

  2.添加自定义词典(提高分词准确率)。开发人员可以指定他们自己的自定义词典,以包含不在jieba词库中的单词。虽然解霸有识别新词的能力,但是自己添加新词可以保证更高的准确率。

  2.1精确模型案例导入jiebastring=小明参与了云计算项目的研究 aa=jieba.lcut(string)print(aa)结果:

  [小,懂,参与,云,计算,项目,研究]

  发现“小明”这个名字不准确,“云计算”这个名字也不准确。

  2.2解决方案1:使用jieba.add_word(word)添加词库中没有的单词。导入jiebastring=小明参与云计算项目的研究 jieba.add_word(云计算)jieba.add_word(小明)aa=jieba.lcut(string)print(aa)结果

  [很少了解,参与,云计算,项目,研究]

  2.2方案二(加载字典文件):jieba . load _ user dict(file _ name)# file _ name:先为file类对象或者自定义字典的路径构建一个XX.txt文件。

  导入jiebastring=小明参与云计算项目研究 jieba . load _ user dict( dict . txt )aa=jieba . lcut(string)print(aa)结果:

  [很少了解,参与,云计算,项目,研究]

  3.关键词提取导入街霸分析

  解霸。analyze.extract _ tags (sentence,topK=20,with weight=false,allowpos=()) sentence是要提取的文本,topK是TF/IDF权重最大的关键字。默认值为20withWeight,即是否一起返回关键字权重值。默认值是FalseallowPOS,它只包含具有指定词性的单词。默认值为空,即不筛选jieba . analyze . TFIDF(IDF _ path=none)来创建tfi df的新实例。Idf_path是Idf频率文件导入jieba.analysestring=晓明白参加云计算项目研究 jieba.add_word(云计算)jieba.add_word(晓明白)new _ words=jieba。分析一下。extract _ tags (string,topk=3) print(

  [小懂,云计算,参与]

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: