下面小编就带大家简单说说Coreseek,Sphinx-for-Chinese和Sphinx Scws的区别。我觉得边肖挺好的。我现在就分享给你,给你一个参考。来和边肖一起看看吧。
Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站
Sphinx的特性如下:
a)高速索引(在当代CPU上,峰值性能可达10mb/s);
b)高性能搜索(对于24gb的文本数据,每次搜索的平均响应时间小于0.1秒);
c)可以处理海量数据(已知可以在单个CPU系统上处理超过100 GB的文本数据和100 M文档);
狮身人面像本身并不能很好的支持中文。
主要体现在一个段落的断字;英语只需要按空格分单词;但是,对于博大精深的中国人来说,却是一件困难的事情。
分词在两个地方会用到;
1.索引时,根据分词对原始数据进行索引。
2.搜索时,向用户输入分词,在索引中查询。
目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws
1.Coreseek是中国人基于Sphinx开发的程序。目前最稳定的版本是基于经典的斯芬克斯0.9.9版本。
优点:有成熟的文档和社区;其分词mmseg是目前国内最好的分词,可用于索引和搜索分词。
缺点:深度开发,版本更新慢;慢速指数
策略:一个词库管理后台维护词库;定期生成词典;这个包会自动划分单词索引;
适用场景:普通青年,类似搜索,适用于常见网站。
2.Sphinx-for-Chinese是Chinese 2在经典的Sphinx 0 . 9 . 9版本基础上开发的扩展版本。
优点:部署简单,操作方便,内嵌分词和词库,可用于索引和搜索分词;
缺点:版本更新慢;弱分词;索引相对较慢。
策略:相同
适用场景:普通青年,赶紧组建搜索小站。
3.Sphinx Scws是两个独立的系统,分开部署,所谓高内聚低耦合,强烈推荐。
优点:两个系统,相对独立,各自有自己的服务器;分词可以用于其他目的;版本更新快;
缺点:部署使用略复杂;索引分词只能用一元分词,数据量大。
策略:超越词库管理;使用时,先调用分词服务,再调用搜索。
适用场景:文艺青年,建筑体面搜索;好文艺青年
上面提到的Coreseek、Sphinx-for-Chinese和Sphinx Scws的区别就是边肖分享的所有内容。希望能给大家一个参考,多多支持我们。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。