用python语言中文分词第三方库jieba,中文分词算法python

  用python语言中文分词第三方库jieba,中文分词算法python

  基于词表示的分词

  中文分词一般有2标记法、4标记法和6标记法,其中最常用的是4标记法。标注集是根据汉字(包括一些非汉字)在中文单词中的位置设计的。

  1.双标记方法

  2-tag是最简单的标记方法,标记集是{B,I}。它被标为带有前缀的B和带有单词其他位置的I。比如重庆的阅卷结果是重庆/Bqing /I ,而大学生的阅卷结果是大/B学/I生/I

  关于下列句子

  讲话——对1998年新年充满希望的新世纪

  用2标签(b,I)标记的结果是

  麦/B冲/B满/I希望/B希望/I的/B新的/B世界/B世纪/I-/B I/B九/I八/I年/I新的/B年/I说话/B话/I

  2.4-标记方法

  4标签标签集是{S,b,m,E},其中S代表单词,b代表单词的第一个字母,m代表单词的中间单词,E代表单词的最后一个单词。关于下列句子

  讲话——对1998年新年充满希望的新世纪

  用4个标签(s,B,M,E)标记的结果是

  I /B收费/E /B满/E希望/B希望/E S/S新/S世界/B年龄/E-/B-/E一/B九/M八/M年/E新/B年/E谈/B谈/E

  我最喜欢自然语言处理博客。Python由实现

  本文使用北大语料库。原始格式是

  显著的结果是

  3.6-标记方法

  由6个标签组成的标签集是{S,B,M1,M2,M,E},其中S代表单词,B代表单词的首字母缩写,M1/M2/M代表单词的中间单词,E代表单词的最后一个单词。比如“大学生”可以表达为“大/B生/M生/E”。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • python语言基本语句用法总结大全,python语言基本语句用法总结怎么写
  • python语言基本语句用法总结大全,python语言基本语句用法总结怎么写,python语言基本语句用法总结
  • python是一种什么类型的计算机语言,python语言是一种什么类型的编程语言
  • Python的保留字符,python语言中的保留字
  • python的指数e怎么表示,指数函数在python语言中怎么表示
  • python语言合法的变量命名,在python中变量的命名要注意哪些问题
  • python变量命名可以用中文吗,下面哪一个不是python语言合法的变量命名
  • Python分词库,用python语言中文分词第三方库jieba对文件data
  • python中复数类型的实部和虚部都是浮点数,python语言中,复数类型中实数部分和虚数部分
  • 用python语言判断一个数是否为素数,Python判断是不是素数
  • python语句变量命名规则,python语言命名变量规则
  • 简述python语言程序的特点,以下关于python语言技术特点
  • matlab中for循环的用法例子,python语言for循环语句
  • Python主网站,python语言的官方网站
  • 用python开发的软件有哪些,哪些工具可以使用python语言开发软件
  • 留言与评论(共有 条评论)
       
    验证码: