python对文本进行分词代码,python的中文分词的第三方库

  python对文本进行分词代码,python的中文分词的第三方库

  自然语言处理中分词是常见的场景。比如从一篇文章中自动提取关键词,就需要使用分词工具。分词在中文检索领域也是不可或缺的。Python有很多开源的分词工具。介绍以下一般的东西。

  1.解霸分词“结巴”分词,GitHub最受欢迎的分词工具。针对最好的Python中文分词组件,支持多种分词模式和自定义词典。

  github star:26k

  代码示例

  Importjiebasters=[我来清华,乒乓球拍卖结束,中科大]forstrinstrs 3360 seg _ list=jieba . cut(str,Use _ paddle=true(# paddle mode print(paddle mode: /。join(list(seg _ list))seg _ list=jieba . cut cut _ all=false(print(exact mode:(/)。join) seg_list))确切模式seg_list=jieba.cut(他来网易航燕大厦))默认为确切模式PS’。join(seg_list)) seg _ Cu集合。

  【全模式】:我/赖/北京/清华/华大/大学【精确模式】:我/赖/北京/清华【新词识别】:何、赖、网易、杭燕、比尔(此处“杭燕”在字典中。

  Github地址:https://github.com/fxsjy/jieba

  2.pkuseg分词pkuseg是北京大学语言计算与机器学习研究组的开源分词工具,其特点是支持多领域分词。目前支持新闻、互联网、医学、旅游、混合领域的分词预训练模式,分词准确率高于一般分词工具。

  github star:5.4k

  代码示例

  Importpkusegseg=pkusegseg。pkuseg(# Load the model text=seg . cut( python是一种很棒的语言)默认配置,输出分词(print))文本。

  [python , Yes , One , Gate , Very , Great , De , Language] github地址:PKU/PKU SEG-,https://github.com/lanco。

  3.基于BiLSTM模型训练FoonlTK分词。据说可能是最精准的开源中文分词,还支持用户自定义词典。

  GitHub star: 1.6k

  代码示例

  Importfooltext=一个在北京的傻瓜 print(fool.cut(text))、"一个人"、"傻瓜"、"存在"、"北京")] github地址:3359 github。

  4.清华大学自然语言处理与社会人文计算实验室开发的中文词法分析工具包。具有词性标注功能,可以分析一个词是名词、动词还是形容词。

  github star:1.5k

  代码示例1代码示例1 importthulacthu 1=thulac . thulac(#默认模式text=thu1.cut)“我爱北京天安门广场”text=True) # print(text)中间隔着一句话I _r love _v北京_ns天安门广场_ns代码示例2 thu1=thulac.thulac (seg

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: