用python语言中文分词第三方库jieba,中文分词算法python

　　基于词表示的分词

　　中文分词一般有2标记法、4标记法和6标记法，其中最常用的是4标记法。标注集是根据汉字(包括一些非汉字)在中文单词中的位置设计的。

　　1.双标记方法

　　2-tag是最简单的标记方法，标记集是{B，I}。它被标为带有前缀的B和带有单词其他位置的I。比如重庆的阅卷结果是重庆/Bqing /I ，而大学生的阅卷结果是大/B学/I生/I

　　关于下列句子

　　讲话——对1998年新年充满希望的新世纪

　　用2标签(b，I)标记的结果是

　　麦/B冲/B满/I希望/B希望/I的/B新的/B世界/B世纪/I-/B I/B九/I八/I年/I新的/B年/I说话/B话/I

　　2.4-标记方法

　　4标签标签集是{S，b，m，E}，其中S代表单词，b代表单词的第一个字母，m代表单词的中间单词，E代表单词的最后一个单词。关于下列句子

　　讲话——对1998年新年充满希望的新世纪

　　用4个标签(s，B，M，E)标记的结果是

　　I /B收费/E /B满/E希望/B希望/E S/S新/S世界/B年龄/E-/B-/E一/B九/M八/M年/E新/B年/E谈/B谈/E

　　我最喜欢自然语言处理博客。Python由实现

　　本文使用北大语料库。原始格式是

　　显著的结果是

　　3.6-标记方法

　　由6个标签组成的标签集是{S，B，M1，M2，M，E}，其中S代表单词，B代表单词的首字母缩写，M1/M2/M代表单词的中间单词，E代表单词的最后一个单词。比如“大学生”可以表达为“大/B生/M生/E”。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。