本文主要介绍python的四个分词工具的相关资料,帮助你更好的理解和学习使用python。感兴趣的朋友可以了解一下。
:
目录
1.街霸分词2。pkuseg分词3。Foonltk分词4。THULAC大家好,我是安国!
自然语言处理中分词是常见的场景。比如从一篇文章中自动提取关键词需要分词工具,在中文搜索中分词也是必不可少的。
Python中有很多开源的分词工具。下面是一些常见的分词依赖库。
1.街霸分词
GitHub最受欢迎的分词工具“Stump”分词,被确定为最好的Python中文分词组件,支持多种分词模式和自定义词典。
github star:26k
代码示例
importjieba
Strs=['我来北京清华','乒乓球拍卖完了','中科大']
森林资源:
Seg _ list=jieba.cut (str,use _ paddle=true) #使用划桨模式
print('PaddleMode:' '/'。join(list(seg_list)))
Seg_list=jieba.cut('我来了北京和清华',cut_all=True)
打印('完整模式:' '/'。join(seg_list))#全模式
Seg_list=jieba.cut('我来了北京和清华',cut_all=False)
Print('精确模式:' '/'。join(seg_list))#精确模式
Seg_list=jieba.cut('他来了网易航燕大厦')#默认是精确模式。
打印('新单词识别:',','。join(seg_list))
Seg_list=jieba.cut_for_search('小明毕业于中科院计算所,后就读于日本京都大学')#搜索引擎模式
打印('搜索引擎模式:','。join(seg_list))
输出:
【全模式】:本人/来到/北京/清华/清华大学/华大/大学。
【精准模式】:本人/来到/北京/清华。
【新词识别】:贺,来了,来了,网易,航言,公馆(这里“航言”不在字典里,但也是维特比算法识别的)
【搜索引擎模式】:小明,硕士,毕业于中国,理科,专科,科学院,中科院,计算,计算,后来,在日本,京都,大学,日本京都大学,深造。
项目地址:
https://github.com/fxsjy/jieba
2.pkuseg分词
Pkuseg是北京大学语言计算与机器学习研究组的开源分词工具。
其特点是支持多领域分词。目前支持新闻、网络、医学、旅游、混合领域的分词预训练模型。用户可以自由选择不同的型号。
与通用分词工具相比,其分词准确率更高。
github star:5.4k
代码示例
importpkuseg
Seg=pkuseg.pkuseg()#使用默认配置加载模型。
Text=seg.cut('python是一门伟大的语言')# for分词
打印(文本)
输出
['python ',' Yes ',' One ',' Gate ',' Very ',' Great ',' De ','语言']
项目地址:
https://github.com/lancopku/pkuseg-python
3.Foonltk分词
它是基于BiLSTM模型训练的。据说可能是最精准的开源中文分词,还支持用户自定义词典。
GitHub star: 1.6k
代码示例
进口傻瓜
Text='傻子在北京'
print(fool.cut(text))
# ['一','傻子','在','北京']
项目地址:
https://github.com/rockyzhengwu/FoolNLTK
4.THULAC
THULAC是清华大学自然语言处理与社会人文计算实验室开发的中文词法分析工具包。
具有词性标注功能,可以分析一个词是名词、动词还是形容词。
github star:1.5k
代码示例
进口土拉克
Thu1=thulac.thulac()#默认模式
Text=thu1.cut('我爱北京的天安门广场',text=True)#做一个分词。
打印(正文)# I _r love _v Beijing _ns天安门_ns
代码示例2
Thu1=thulac。thulac (seg _ only=true) #只有分词,没有词性标注。
Thu1.cut _ f ('input.txt ',' output.txt') #将input.txt文件的内容分段输出到output.txt。
项目地址:
https://github.com/thunlp/THULAC-Python
目前我还在用口吃分词,可以用自定义词典解决常见的网络词。
你用的是什么分词工具?请留下你的评论。
以上是对python的四个分词工具的简单介绍。用哪个比较好?更多关于python分词工具的信息,请关注我们的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。