常用的中文分词工具,分词软件

　　作者芬多爱

　　一中文分词

　　分词服务接口列表

　　二准确率评测：

　　THULAC:与代表性分词软件的性能比较

　　比较有代表性的中文分词软件LTP-3.2.0，ictclas(2015版)，jieba(C) c版等。与THULAC进行性能比较。选择Windows作为测试环境，基于第二届国际中文分词bakoff发布的国际中文分词评测标准，测试不同软件的速度和准确率。

　　第二届国际中文分词评测包括四家机构(中央研究院、城市大学、北京大学、微软研究院)提供的测试材料，评测提供的资源ICW B2-dddd来自相应分词标准提供的训练集、测试集和标准答案(icwb2-data/scripts/gold)。

　　在统一的测试环境下，对流行的分词软件和THULAC进行测试，使用的模型是各个分词软件的模型。THULAC使用软件附带的简单模型Model_1。基于英特尔酷睿I 5.4 GHz的环境测量结果如下。

　　评估结果1

　　除了对上述标准测试集的评测，还对大数据中各个分词工具的速度进行了评测，结果如下。

　　CNKI_journal.txt(51MB).

　　评估结果2

　　分词数据的准备和评估由BosonNLP完成。11种开放式中文分词引擎竞赛。(2015年发布)))))))))))))。

　　分词的客观量化测试离不开阅卷数据，也就是人工准备的分词“标准答案”。在数据源上，测试分为：1。新闻数据：140篇，共30517字；2.微博数据：200篇，12962字；3.汽车论坛数据(汽车之家100篇文章)共27452字。4.餐饮点评数据(大众点评)100篇，共8295字。

　　准确度计算规则：

　　删除所有标点符号，不做比较。

　　部分被测系统有实体标识，可能导致语言标识不一致。用人工标注的结果代替相应的位置，得到精度估计的上限。

　　经过上述处理后，使用SIGHAN分词评分脚本对最终的准确率、召回率和F1值进行比较。

　　以上数据均以《北京大学现代汉语基础处理标准》对所有数据的切分为准。具体数据下载地址请参考附录。通过这四类数据，综合比较不同分词系统的分词准确率。

　　连词系统的正确性比较

　　三付费价格：

　　阿里云：

　　AlibabaCloud(阿里云)收费价格

　　腾讯云：

　　云腾收费价格

　　玻森中文

　　免费限额：

　　博森中文免费限额。

　　收费价格：

　　Bo中文收费价格

　　四官网

　　开源工具

　　汉普：

　　https://github.com/hankcs/HanLP

　　结缕草分词：

　　https://github.com/fxsjy/jieba

　　盘古分词：

　　3358小懒胡子codeplex.com/

　　我的技能帮助牛：

　　https://代码。丁/

　　西南中文分词：

　　33558 www。荀search.com/scws/docs.服务器端编程语言（Professional Hypertext Preprocessor的缩写）

　　高校工具

　　FudanNLP:

　　https://github.com/FudanNLP/fnlp

　　LTP:

　　33558 www。LTP-cloud.com/document

　　THULAC:

　　http://thulac.thunlp.org/

　　NLPIR:

　　http://ictclas.nlpir.org/docs

　　商业服务

　　BosonNLP:

　　http://bosonnlp.com/dev/center

　　百度自然语言处理：

　　3359云。Baidu.com/doc/NLP/NLP-API.html

　　搜狗分词：

　　33558www.sogou.com/labs/web服务/

　　腾讯文志：

　　3359云。Tencent.com/document/product/271/2071

　　腾讯价格表：

　　3359云。Tencent.com/document/product/271/1140

　　阿里巴巴云(阿里云)NLP:

　　3359数据。liyun.com/product/NLP

　　新浪云：

　　33558 www。新浪cloud.com/doc/SAE/python/segment.html

　　测试数据集

　　1、SIGHANBakeoff 2005 MSR，560KB

　　3358叹an.cs.uchicago.edu/bake关2005 /

　　2、SIGHANBakeoff 2005北京大学，510KB

　　3358叹an.cs.uchicago.edu/bake关2005 /

　　3.人民日报，2014年，65mb

　　https://pan.baidu.com/s/1hq3KKXe

　　前两个数据集用于sigh an 2005组织的中文分词大赛，也是学术界测试分词工具的标准数据集。本文用于测试各大分词工具的正确性，最后一组数据集较大，用于测试分词速度。

　　艾：http://www.panchuangai.com/潘闯

　　tensorflownews:http://www . tensorflownews . com/

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读