,,浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

,,浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

下面小编就带大家简单说说Coreseek,Sphinx-for-Chinese和Sphinx Scws的区别。我觉得边肖挺好的。我现在就分享给你,给你一个参考。来和边肖一起看看吧。

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)高速索引(在当代CPU上,峰值性能可达10mb/s);

b)高性能搜索(对于24gb的文本数据,每次搜索的平均响应时间小于0.1秒);

c)可以处理海量数据(已知可以在单个CPU系统上处理超过100 GB的文本数据和100 M文档);

狮身人面像本身并不能很好的支持中文。

主要体现在一个段落的断字;英语只需要按空格分单词;但是,对于博大精深的中国人来说,却是一件困难的事情。

分词在两个地方会用到;

1.索引时,根据分词对原始数据进行索引。

2.搜索时,向用户输入分词,在索引中查询。

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1.Coreseek是中国人基于Sphinx开发的程序。目前最稳定的版本是基于经典的斯芬克斯0.9.9版本。

优点:有成熟的文档和社区;其分词mmseg是目前国内最好的分词,可用于索引和搜索分词。

缺点:深度开发,版本更新慢;慢速指数

策略:一个词库管理后台维护词库;定期生成词典;这个包会自动划分单词索引;

适用场景:普通青年,类似搜索,适用于常见网站。

2.Sphinx-for-Chinese是Chinese 2在经典的Sphinx 0 . 9 . 9版本基础上开发的扩展版本。

优点:部署简单,操作方便,内嵌分词和词库,可用于索引和搜索分词;

缺点:版本更新慢;弱分词;索引相对较慢。

策略:相同

适用场景:普通青年,赶紧组建搜索小站。

3.Sphinx Scws是两个独立的系统,分开部署,所谓高内聚低耦合,强烈推荐。

优点:两个系统,相对独立,各自有自己的服务器;分词可以用于其他目的;版本更新快;

缺点:部署使用略复杂;索引分词只能用一元分词,数据量大。

策略:超越词库管理;使用时,先调用分词服务,再调用搜索。

适用场景:文艺青年,建筑体面搜索;好文艺青年

上面提到的Coreseek、Sphinx-for-Chinese和Sphinx Scws的区别就是边肖分享的所有内容。希望能给大家一个参考,多多支持我们。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • word文档无法编辑是怎么回事-
  • 华为手机怎么设置返回键(华为手机下面的三个按键设置方法)
  • lumia950怎么样(Lumia950体验分享)
  • otg连接是什么意思(OTG连接手机方法)
  • 笔记本触摸板怎么右键(笔记本电脑触控板手势操作设置)
  • 真我x7怎么样(realme X7 系列体验)
  • 苹果的A16处理器有多强(苹果的A16处理器的介绍)
  • 小米互传怎么用(小米手机的连接与共享教程)
  • 怎么设置电脑桌面图标自动对齐 设置电脑桌面自动整理图标的方法
  • 宽带错误651最简单解决方法(处理宽带错误651的措施)
  • 大学生手机有什么推荐(大学生换手机攻略)
  • 天玑1100和骁龙778g哪个好(骁龙778G、天玑900、天玑1100购选建议)
  • yum update 升级报错的解决办法
  • Windows10禁用屏保教程
  • 连接wifi显示无互联网连接怎么办(无线连上了却不能上网处理绝招)
  • 留言与评论(共有 条评论)
       
    验证码: