用python语言中文分词第三方库jieba,中文分词算法python
基于词表示的分词
中文分词一般有2标记法、4标记法和6标记法,其中最常用的是4标记法。标注集是根据汉字(包括一些非汉字)在中文单词中的位置设计的。
1.双标记方法
2-tag是最简单的标记方法,标记集是{B,I}。它被标为带有前缀的B和带有单词其他位置的I。比如重庆的阅卷结果是重庆/Bqing /I ,而大学生的阅卷结果是大/B学/I生/I
关于下列句子
讲话——对1998年新年充满希望的新世纪
用2标签(b,I)标记的结果是
麦/B冲/B满/I希望/B希望/I的/B新的/B世界/B世纪/I-/B I/B九/I八/I年/I新的/B年/I说话/B话/I
2.4-标记方法
4标签标签集是{S,b,m,E},其中S代表单词,b代表单词的第一个字母,m代表单词的中间单词,E代表单词的最后一个单词。关于下列句子
讲话——对1998年新年充满希望的新世纪
用4个标签(s,B,M,E)标记的结果是
I /B收费/E /B满/E希望/B希望/E S/S新/S世界/B年龄/E-/B-/E一/B九/M八/M年/E新/B年/E谈/B谈/E
我最喜欢自然语言处理博客。Python由实现
本文使用北大语料库。原始格式是
显著的结果是
3.6-标记方法
由6个标签组成的标签集是{S,B,M1,M2,M,E},其中S代表单词,B代表单词的首字母缩写,M1/M2/M代表单词的中间单词,E代表单词的最后一个单词。比如“大学生”可以表达为“大/B生/M生/E”。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。