常用的中文分词工具,分词 软件

  常用的中文分词工具,分词 软件

  作者芬多爱

  一中文分词

  分词服务接口列表

  二准确率评测:

  THULAC:与代表性分词软件的性能比较

  比较有代表性的中文分词软件LTP-3.2.0,ictclas(2015版),jieba(C) c版等。与THULAC进行性能比较。选择Windows作为测试环境,基于第二届国际中文分词bakoff发布的国际中文分词评测标准,测试不同软件的速度和准确率。

  第二届国际中文分词评测包括四家机构(中央研究院、城市大学、北京大学、微软研究院)提供的测试材料,评测提供的资源ICW B2-dddd来自相应分词标准提供的训练集、测试集和标准答案(icwb2-data/scripts/gold)。

  在统一的测试环境下,对流行的分词软件和THULAC进行测试,使用的模型是各个分词软件的模型。THULAC使用软件附带的简单模型Model_1。基于英特尔酷睿I 5.4 GHz的环境测量结果如下。

  评估结果1

  除了对上述标准测试集的评测,还对大数据中各个分词工具的速度进行了评测,结果如下。

  CNKI_journal.txt(51MB).

  评估结果2

  分词数据的准备和评估由BosonNLP完成。11种开放式中文分词引擎竞赛。(2015年发布)))))))))))))。

  分词的客观量化测试离不开阅卷数据,也就是人工准备的分词“标准答案”。在数据源上,测试分为:1。新闻数据:140篇,共30517字;2.微博数据:200篇,12962字;3.汽车论坛数据(汽车之家100篇文章)共27452字。4.餐饮点评数据(大众点评)100篇,共8295字。

  准确度计算规则:

  删除所有标点符号,不做比较。

  部分被测系统有实体标识,可能导致语言标识不一致。用人工标注的结果代替相应的位置,得到精度估计的上限。

  经过上述处理后,使用SIGHAN分词评分脚本对最终的准确率、召回率和F1值进行比较。

  以上数据均以《北京大学现代汉语基础处理标准》对所有数据的切分为准。具体数据下载地址请参考附录。通过这四类数据,综合比较不同分词系统的分词准确率。

  连词系统的正确性比较

  三付费价格:

  阿里云:

  AlibabaCloud(阿里云)收费价格

  腾讯云:

  云腾收费价格

  玻森中文

  免费限额:

  博森中文免费限额。

  收费价格:

  Bo中文收费价格

  四官网

  开源工具

  汉普:

  https://github.com/hankcs/HanLP

  结缕草分词:

  https://github.com/fxsjy/jieba

  盘古分词:

  3358小懒胡子codeplex.com/

  我的技能帮助牛:

  https://代码。丁/

  西南中文分词:

  33558 www。荀search.com/scws/docs.服务器端编程语言(Professional Hypertext Preprocessor的缩写)

  高校工具

  FudanNLP:

  https://github.com/FudanNLP/fnlp

  LTP:

  33558 www。LTP-cloud.com/document

  THULAC:

  http://thulac.thunlp.org/

  NLPIR:

  http://ictclas.nlpir.org/docs

  商业服务

  BosonNLP:

  http://bosonnlp.com/dev/center

  百度自然语言处理:

  3359云。Baidu.com/doc/NLP/NLP-API.html

  搜狗分词:

  33558www.sogou.com/labs/web服务/

  腾讯文志:

  3359云。Tencent.com/document/product/271/2071

  腾讯价格表:

  3359云。Tencent.com/document/product/271/1140

  阿里巴巴云(阿里云)NLP:

  3359数据。liyun.com/product/NLP

  新浪云:

  33558 www。新浪cloud.com/doc/SAE/python/segment.html

  测试数据集

  1、SIGHANBakeoff 2005 MSR,560KB

  3358叹an.cs.uchicago.edu/bake关2005 /

  2、SIGHANBakeoff 2005北京大学,510KB

  3358叹an.cs.uchicago.edu/bake关2005 /

  3.人民日报,2014年,65mb

  https://pan.baidu.com/s/1hq3KKXe

  前两个数据集用于sigh an 2005组织的中文分词大赛,也是学术界测试分词工具的标准数据集。本文用于测试各大分词工具的正确性,最后一组数据集较大,用于测试分词速度。

  艾:http://www.panchuangai.com/潘闯

  tensorflownews:http://www . tensorflownews . com/

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: