ElasticSearch(elasticsearch原理)

  本篇文章为你整理了ElasticSearch(elasticsearch原理)的详细内容,包含有elasticsearch应用场景 elasticsearch原理 elasticsearch怎么读 elasticsearch教程 ElasticSearch,希望能帮助你了解 ElasticSearch。

  是一个开放源代码的全文检索引擎工具包

  不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)

  当前以及最近几年最受欢迎的免费Java信息检索程序库。

  Lucene和ElasticSearch的关系:

  ElasticSearch是基于Lucene 做了一下封装和增强

  1.2 ElasticSearch 概述

  官网:https://www.elastic.co/cn/downloads/elasticsearch

  Elaticsearch,简称为es,es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别(大数据时代)的数据。es也使用java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

  据国际权威的数据库产品评测机构DB Engines的统计,在2016年1月,ElasticSearch已超过Solr等,成为排名第一的搜索引擎类应用。

  ELK技术: elasticsearch+logstash+kibana

  1.3 ES和Solr

  1.3.1 ElasticSearch简介

  Elasticsearch是一个实时分布式搜索和分析引擎。 它让你以前所未有的速度处理大数据成为可能。

  它用于全文搜索、结构化搜索、分析以及将这三者混合使用:

  维基百科使用Elasticsearch提供全文搜索并高亮关键字,以及输入实时搜索(search-asyou-type)和搜索纠错(did-you-mean)等搜索建议功能。

  英国卫报使用Elasticsearch结合用户日志和社交网络数据提供给他们的编辑以实时的反馈,以便及时了解公众对新发表的文章的回应。

  StackOverflow结合全文搜索与地理位置查询,以及more-like-this功能来找到相关的问题和答案。

  Github使用Elasticsearch检索1300亿行的代码。

  但是Elasticsearch不仅用于大型企业,它还让像DataDog以及Klout这样的创业公司将最初的想法变成可扩展的解决方案。

  Elasticsearch可以在你的笔记本上运行,也可以在数以百计的服务器上处理PB级别的数据。

  Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域, Lucene可被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

  但是, Lucene只是一个库。 想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是, Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

  Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

  1.3.2 Solr简介

  Solr是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化

  Solr可以独立运行,运行在letty. Tomcat等这些Selrvlet容器中 , Solr 索引的实现方法很简单,用POST方法向Solr服务器发送一个描述Field及其内容的XML文档, Solr根据xml文档添加、删除、更新索引。Solr 搜索只需要发送HTTP GET请求,然后对Solr返回xml、json等格式的查询结果进行解析,组织页面布局。

  Solr不提供构建UI的功能, Solr提供了一个管理界面,通过管理界面可以查询Solr的配置和运行情况。

  Solr是基于lucene开发企业级搜索服务器,实际上就是封装了lucene.

  Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交-定格式的文件,生成索引;也可以通过提出查找请求,并得到返回结果。

  1.3.3 ElasticSearch与Solr比较

  当单纯的对已有数据进行搜索时,Solr更快

  2.当实时建立索引时,Solr会产生io阻塞,查询性能较差,ElasticSearch具有明显的优势

  3.随着数据量的增加,Solr的搜索效率会变得更低,而ElasticSearch却没有明显的变化

  4.转变我们的搜索基础设施后从Solr ElasticSearch,我们看见一个即时~ 50x提高搜索性能!

  1.3.4 总结

  1、es基本是开箱即用(解压就可以用!) ,非常简单。Solr安装略微复杂一丢丢!
 

  2、Solr 利用Zookeeper进行分布式管理,而Elasticsearch自身带有分布式协调管理功能。
 

  3、Solr 支持更多格式的数据,比如JSON、XML、 CSV ,而Elasticsearch仅支持json文件格式。
 

  4、Solr 官方提供的功能更多,而Elasticsearch本身更注重于核心功能,高级功能多有第三方插件提供,例如图形化界面需要kibana友好支撑
 

  5、Solr 查询快,但更新索引时慢(即插入删除慢) ,用于电商等查询多的应用;

  ES建立索引快(即查询慢) ,即实时性查询快,用于facebook新浪等搜索。

  Solr是传统搜索应用的有力解决方案,但Elasticsearch更适用于新兴的实时搜索应用。

  6、Solr比较成熟,有一个更大,更成熟的用户、开发和贡献者社区,而Elasticsearch相对开发维护者较少,更新太快,学习使用成本较高。

  2、ElasticSearch安装

  JDK8,最低要求;

  使用Java开发,必须保证ElasticSearch的版本与Java的核心jar包版本对应!(Java环境保证没错)

  2.1 ElasticSearch

  2.1.1 下载

  ElasticSearch下载地址:https://mirrors.huaweicloud.com/elasticsearch/7.6.1

  下载完解压即可;

  2.1.2 熟悉目录

  

bin 启动文件目录

 

  config 配置文件目录

   1og4j2 日志配置文件

   jvm.options java 虚拟机相关的配置(默认启动占1g内存,内容不够需要自己调整)

   elasticsearch.ym1 elasticsearch 的配置文件! 默认9200端口!跨域!

   相关jar包

  modules 功能模块目录

  plugins 插件目录

   ik分词器

  

 

  2.1.3 启动

  1.点击:elasticsearch.bat

  2.访问地址:127.0.0.1:9200

  3.访问测试成功

  2.2 安装elasticsearch-head可视化界面(解决跨域问题)

  elasticsearch-head

  使用前提:需要安装node.js

  2.2.1 下载

  elasticsearch-head下载地址:https://github.com/mobz/elasticsearch-head/archive/master.zip

  下载完解压即可;

  2.2.2安装依赖与启动

  

cd elasticsearch-head

 

  # 安装依赖

  npm install

  npm run start

  或者 npm start (后面我一直使用的是这个)

  http://localhost:9100/

  

 

  访问地址:http://loacalhost:9100
 

  使用罗技鼠标插件的可能会占用9100端口

  关闭LGHUBUpdateService服务即可;或者修改elasticsearch-head的端口,反正两个不用端口冲突就好;

  2.2.3访问

  存在跨域问题(只有当两个页面同源,才能交互);

  同源(端口,主机,协议三者都相同);

  开启跨域(在elasticsearch解压目录config下elasticsearch.yml中添加)

  

# 开启跨域

 

  http.cors.enabled: true

  # 所有人访问

  http.cors.allow-origin: "*"

  

 

  再次连接,连接成功

  如何理解上图:

  
2.3安装 kibana

  Kibana是一个针对ElasticSearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana ,可以通过各种图表进行高级数据分析及展示。Kibana让海量数据更容易理解。它操作简单,基于浏览器的用户界面可以快速创建仪表板( dashboard )实时显示Elasticsearch查询动态。设置Kibana非常简单。无需编码或者额外的基础架构,几分钟内就可以完成Kibana安装并启动Elasticsearch索引监测。

  2.3.1 下载

  kibana下载地址:https://mirrors.huaweicloud.com/kibana/7.6.1/

  下载后解压即可;

  2.3.2 启动

  点击kibana.bat;

  访问:http://localhost:5601

  访问成功

  2.3.3 控制台

  2.3.4kibana 汉化

  编辑器打开kibana解压目录/config/kibana.yml,添加 i18n.locale: "zh-CN"

  zh-CH.json文件

  2.3.5 了解ELK

  
其中Elasticsearch是一个基于Lucene、分布式、通过Restful方式进行交互的近实时搜索平台框架。

  像类似百度、谷歌这种大数据全文搜索引擎的场景都可以使用Elasticsearch作为底层支持框架,可见Elasticsearch提供的搜索能力确实强大,市面上很多时候我们简称Elasticsearch为es。

  Logstash是ELK的中央数据流引擎,用于从不同目标(文件/数据存储/MQ )收集的不同格式数据,经过过滤后支持输出到不同目的地(文件/MQ/redis/elasticsearch/kafka等)。

  Kibana可以将elasticsearch的数据通过友好的页面展示出来 ,提供实时分析的功能。

  
市面上很多开发只要提到ELK能够一致说出它是一个日志分析架构技术栈总称 ,但实际上ELK不仅仅适用于日志分析,它还可以支持其它任何数据分析和收集的场景,日志分析和收集只是更具有代表性。并非唯一性。

  
集群,节点,索引,类型,文档,分片,映射是什么?

  3.2 关系行数据库和ElasticSearch客观对比

  ElasticSearch是面向文档,关系行数据库和ElasticSearch客观对比!一切都是JSON!

  
elasticsearch(集群)中可以包含多个索引(数据库) ,每个索引中可以包含多个类型(表) ,每个类型下又包含多个文档(行) ,每个文档中又包含多个字段(列)。

  3.3 物理设计:

  elasticsearch在后台把每个索引划分成多个分片,每分分片可以在集群中的不同服务器间迁移

  一个人就是一个集群! ,即启动的ElasticSearch服务,默认就是一个集群,且默认集群名为elasticsearch;

  3.4 逻辑设计:

  一个索引类型中,包含多个文档,比如说文档1,文档2。当我们索引一篇文档时,可以通过这样的顺序找到它:索引 = 类型 = 文档ID ,通过这个组合我们就能索引到某个具体的文档。 注意:ID不必是整数,实际上它是个字符串。

  3.4.1 文档(”行“)

  之前说elasticsearch是面向文档的,那么就意味着索引和搜索数据的最小单位是文档,elasticsearch中,文档有几个重要属性:

  自我包含,一篇文档同时包含字段和对应的值,也就是同时包含key:value !

  可以是层次型的,一个文档中包含自文档,复杂的逻辑实体就是这么来的!

  灵活的结构,文档不依赖预先定义的模式,我们知道关系型数据库中,要提前定义字段才能使用,在elasticsearch中,对于字段是非常灵活的,有时候,我们可以忽略该字段,或者动态的添加一个新的字段。

  尽管我们可以随意的新增或者忽略某个字段,但是,每个字段的类型非常重要,比如一个年龄字段类型,可以是字符串也可以是整形。因为elasticsearch会保存字段和类型之间的映射及其他的设置。这种映射具体到每个映射的每种类型,这也是为什么在elasticsearch中,类型有时候也称为映射类型。

  3.4.2 类型(“表”)

  类型是文档的逻辑容器,就像关系型数据库一样,表格是行的容器。类型中对于字段的定义称为映射,比如name映射为字符串类型。我们说文档是无模式的,它们不需要拥有映射中所定义的所有字段,比如新增一个字段,那么elasticsearch是怎么做的呢?

  elasticsearch会自动的将新字段加入映射,但是这个字段的不确定它是什么类型,elasticsearch就开始猜,如果这个值是18,那么elasticsearch会认为它是整形。但是elasticsearch也可能猜不对,所以最安全的方式就是提前定义好所需要的映射,这点跟关系型数据库殊途同归了,先定义好字段,然后再使用,别整什么幺蛾子。

  3.4.3 索引(“库”)

  索引是映射类型的容器, elasticsearch中的索引是一个非常大的文档集合。 索引存储了映射类型的字段和其他设置。然后它们被存储到了各个分片上了。我们来研究下分片是如何工作的。

  物理设计:节点和分片 如何工作

  创建新索引

  一个集群至少有一个节点,而一个节点就是一个elasricsearch进程,节点可以有多个索引默认的,如果你创建索引,那么索引将会有个5个分片(primary shard ,又称主分片)构成的,每一个主分片会有一个副本(replica shard,又称复制分片);

  上图是一个有3个节点的集群,可以看到主分片和对应的复制分片都不会在同一个节点内,这样有利于某个节点挂掉了,数据也不至于丢失。实际上,一个分片是一个Lucene索引(一个ElasticSearch索引包含多个Lucene索引) ,一个包含倒排索引的文件目录,倒排索引的结构使得elasticsearch在不扫描全部文档的情况下,就能告诉你哪些文档包含特定的关键字。不过,等等,倒排索引是什么鬼?

  3.4.3.1 倒排索引(Lucene索引底层)

  简单说就是 按(文章关键字,对应的文档 0个或多个 )形式建立索引,根据关键字就可直接查询对应的文档(含关键字的),无需查询每一个文档,如下图

  如果要搜索含有python标签的文章,那相对于查找所有原数据而言,查找倒排索引后的数据将会快的多,只需要查看标签这一栏,然后获取相关的文章ID即可,完全过滤无关的所有数据,提高效率!

  3.4.3.2 elasticsearch的索引和Lucene的索引对比

  在elasticsearch中,索引(库)这个词被频繁使用,这就是术语的使用。在elasticsearch中,索引被分为多个分片,每份 分片是 一个Lucence的索引。所以一个elasticsearch索引是 由多个Lucence索引组成的。别问问什么,因为elasticsearch的Lucence作为底层呢!,如无特指,说起索引都是指elasticsearch的索引。

  4、IK分词器(elasticsearch插件)

  4.1 IK分词器:中文分词器

  分词:即把一段中文或者别的文字划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一一个匹配操作,默认的中文分词是将每个字看成一个词(不使用用IK分词器的情况下),比如“我爱狂神”会被分为”我”,”爱”,”狂”,”神” ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

  IK提供了两个分词算法: ik_smart和ik_max_word ,其中ik_smart为最少切分, ik_max_word为最细粒度划分!

  4.2 下载

  elasticsearch-analysis-ik下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.6.1

  下载后解压到ElasticSearch的plugins目录ik(自己添加一个名为ik的文件夹)文件夹下:

  4.3 重启ElasticSearch

  加载了IK分词器

  4.4 elasticsearch-plugin list 命令 查看插件

  4.5 使用kibana测试

  4.5.1 查看不同的分词效果

  ik_smart:最少切分

  

GET _analyze

 

   "analyzer": "ik_smart",

   "text": "全世界"

  

 

  ik_max_word:最细粒度划分(穷尽词库的可能)

  

GET _analyze

 

   "analyzer": "ik_max_word",

   "text": "全世界"

  

 

  4.5.2 添加自定义的词添加到扩展字典中

  从上面看,感觉分词都比较正常,但是大多数,分词都满足不了我们的想法,如下例;

  

GET _analyze

 

   "analyzer": "ik_max_word",

   "text": "超喜欢狂神说Java"

  

 

  发现问题:狂神说被拆开了;

  这种自己需要的词,需要自己加到我们的分词器的字典中!

  1.创建字典文件

  2.添加字典内容:kuang.dic

  3.将自己的字典文件配置到ik分词器的配置文件中:

  配置自己的扩展字典:

  4.重启,再次测试

  再次测试一下狂神说,看下效果

  以后的话,我们需要将自己配置 分词就在自己定义的dic文件中进行配置即可;

  5、关于索引的基本操作

  5.1Rest风格说明

  一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

  基本Rest命令说明:

  
执行命令

  完成了自动增加索引,数据也添加了, 添加了文档 (“行”)![image-20220725111741302]

  5.2.2 字段数据类型

  字符串类型

  text、keyword

  text:支持分词,全文检索,支持模糊、精确查询,不支持聚合,排序操作;text类型的最大支持的字符长度无限制,适合大字段存储;

  keyword:不进行分词,直接索引、支持模糊、支持精确匹配,支持聚合、排序操作。keyword类型的最大支持的长度为——32766个UTF-8类型的字符,可以通过设置ignore_above指定自持字符长度,超过给定长度后的数据将不被索引,无法通过term精确匹配检索返回结果。

  


 

 

  GET test2 查看规则信息

  5.3.4 查看默认信息

  直接插入数据,不创建规则,自动匹配数据类型;

  查看test索引的默认匹配数据类型:

  如果自己的文档字段没有指定,那么es就会给我们默认匹配字段类型;

  5.3.5 扩展:get _cat/

  通过get _cat/可以获取ElasticSearch的当前的很多信息!

  

GET _cat/indices

 

  GET _cat/aliases

  GET _cat/allocation

  GET _cat/count

  GET _cat/fielddata

  GET _cat/health

  GET _cat/indices

  GET _cat/master

  GET _cat/nodeattrs

  GET _cat/nodes

  GET _cat/pending_tasks

  GET _cat/plugins

  GET _cat/recovery

  GET _cat/repositories

  GET _cat/segments

  GET _cat/shards

  GET _cat/snapshots

  GET _cat/tasks

  GET _cat/templates

  GET _cat/thread_pool

  

 

  5.3.6 修改

  5.3.6.1 使用put覆盖原来的值 (旧方法)

  注意:覆盖修改,会数据丢失,如果原来的数据有多个字段,但是新数据只有一个字段,则其他没有新数据的字段会没有数据;(原理先删除后增加)

  

# 覆盖更新 修改后版本会增加

 

  PUT /test3/_doc/1

   "name": "狂神说123",

   "age": 13,

   "birthday": "1997-01-05"

  

 

  5.3.6.2 使用post的update跟新

  需要注意doc

  不会丢失字段

  

# post 更新 不会数据丢失

 

  POST /test3/_doc/1/_update

   "doc":{

   "name": "法外狂徒张三"

  

 

  5.3.7 删除索引

  

# 删除test1

 

  DELETE test1

  

 

  通过DELETE命令实现删除,根据你的请求判断是删除索引还是删除文档记录;

  使用RESTFUL风格是我们ES推荐大家使用的;

  6、关于文档的基本操作

  添加数据

  

# 关于文档的操作

 

  # 基本操作

  # 添加数据

  PUT /kuangshen/user/1

   "name": "狂神说",

   "age": 23,

   "desc": "一顿操作猛如虎再看工资2500",

   "tags": ["技术宅","温暖","指男"]

  PUT /kuangshen/user/2

   "name": "张三",

   "age": 3,

   "desc": "法外狂徒",

   "tags": ["交友","旅游","渣男"]

  PUT /kuangshen/user/3

   "name": "李四",

   "age": 30,

   "desc": "mpm,不知道怎么形容",

   "tags": ["靓女","旅游","唱歌"]

  PUT /kuangshen/user/4

   "name": "狂神说前端",

   "age": 3,

   "desc": "一顿操作猛如虎再看工资2500",

   "tags": ["技术宅","温暖","指男"]

  

 

  6.1 条件查询(简单查询)

  简单的条件查询,可以根据默认的映射规则,产生的查询!

  

# 简单的搜索

 

  GET kuangshen/user/1

  # 简单的条件查询

  GET kuangshen/user/_search?q=name:狂神说

  GET kuangshen/user/_search?q=name:狂神说Java

  

 

  6.2 复杂查询

  

GET kuangshen/user/_search

 

   "query": {

   "match": {

   "name": "狂神"

  

 

  6.2.1 _score 字段过滤

  

GET kuangshen/user/_search

 

   "query": {

   "match": {

   "name": "狂神"

   "_source": ["name","desc"]

  

 

  6.2.2 sort排序

  desc 降序 asc 升序

  

# sort排序 desc 降序 asc 升序

 

  GET kuangshen/user/_search

   "query": {

   "match": {

   "name": "狂神"

   "sort": [

   "age": {

   "order": "desc"

  

 

  6.2.3 form size 分页查询

  

# 分页查询 from:从第一个数据开始 size:返回多少条数据

 

  GET kuangshen/user/_search

   "query": {

   "match": {

   "name": "狂神"

   "sort": [

   "age": {

   "order": "desc"

   "from": 0,

   "size": 2

  # 数据下标从0开始

  

 

  6.2.4 布尔值查询

  6.2.4.1 match 匹配查询

  

# 多个条件使用空格隔开 (类似 in)

 

  # 只要满足其中一个结果旧可以被查出来

  # 这个时候可以通过分值基本的判断

  GET kuangshen/user/_search

   "query": {

   "match": {

   "tags": "男 技术"

  

 

  6.2.4.2 must 等价 and

  

# 多条件查询

 

  # must 表示and,所有的条件都要符合 类似where id = 1 and name = xxx

  GET kuangshen/user/_search

   "query": {

   "bool": {

   "must": [

   "match": {

   "name": "狂神说"

   "match": {

   "age": "23"

  

 

  6.2.4.3 should 等价or

  

# should 表示or

 

  GET kuangshen/user/_search

   "query": {

   "bool": {

   "should": [

   "match": {

   "name": "狂神说"

   "match": {

   "age": "23"

  

 

  6.2.4.4 must_not 等价 not

  

# must_not 等价于not 

 

  GET kuangshen/user/_search

   "query": {

   "bool": {

   "must_not": [

   "match": {

   "name": "狂神说"

   "match": {

   "age": "23"

  

 

  6.2.4.5 filter 对数据进行过滤

  

# 过滤器 filter 对数据进行过滤

 

  GET kuangshen/user/_search

   "query": {

   "bool": {

   "must": [

   "match": {

   "name": "狂神说"

   "filter": {

   "range": {

   "age": {

   "gte": 10

  # gt 大于

  # gte 大于等于

  # lt 小于

  # lte 小于等于

  

 

  6.2.4.6 匹配多个条件

  

# 匹配多个条件

 

  # 多个条件使用空格隔开

  # 只要满足其中一个结果就可以被查出

  # 这个时候可以通过分值基本的判断

  GET kuangshen/user/_search

   "query": {

   "match": {

   "tags": "女 技术"

  

 

  6.2.4.7 term 精确查询

  term查询是直接通过倒排索引指定的词条进行精确的查找;

  关于分词:

  trem:直接查询精确的

  match:会使用分词器解析!(先分析文档,然后通过分析的文档进行查询;)

  两个类型 text keywork

  

# 测试

 

  # 创建索引

  PUT testdb

   "mappings": {

   "properties": {

   "name": {

   "type": "text"

   "desc": {

   "type": "keyword"

  # 插入数据

  PUT testdb/_doc/1

   "name": "狂神说 Java name",

   "desc": "狂神说 Java desc"

  PUT testdb/_doc/2

   "name": "狂神说 Java name2",

   "desc": "狂神说 Java desc2"

  

 

  6.2.4.6.1 "analyzer": "keyword" 模式

  

# keywork 模式 一个整体 不分词 没有被分析

 

  GET _analyze

   "analyzer": "keyword",

   "text": "狂神说 Java name"

  

 

  6.2.4.6.2 "analyzer": "standard"模式

  

# standard 模式 会进行分词

 

  GET _analyze

   "analyzer": "standard",

   "text": "狂神说 Java name"

  

 

  6.2.4.6.3 text 和 keywork 类型区别

  

# name的类型是text会被分词解析器解析,所以可以通过部分词搜索到

 

  GET testdb/_search

   "query": {

   "term": {

   "name": {

   "value": "狂"

  

 

  

# keyword 类型的字段不会被分词解析,必须完全一样才可以搜索到

 

  GET testdb/_search

   "query": {

   "term": {

   "desc": {

   "value": "狂神说 Java desc"

  

 

  6.2.4.6.4 多个值匹配精确查询

  

# 精确查询多个值

 

  # 插入数据

  PUT testdb/_doc/3

   "t1": "22",

   "t2": "2020-4-6"

  PUT testdb/_doc/4

   "t1": "33",

   "t2": "2020-4-7"

  
 

 

  6.2.5 高亮查询 highlight

  6.2.5.1 高亮查询

  

# 高亮查询

 

  # highlight 只当的字段会被加上标签

  GET kuangshen/user/_search

   "query": {

   "match": {

   "name": "狂神说"

   "highlight": {

   "fields": {

   "name":{}

  

 

  6.2.5.2 自定义高亮标签

  

# 自定义搜索高亮条件 ,自定义标签

 

  GET kuangshen/user/_search

   "query": {

   "match": {

   "name": "狂神说"

   "highlight": {

   "pre_tags": " p ",

   "post_tags": " /p ",

   "fields": {

   "name":{}

  

 

  7、SpringBoot整合

  7.1 官方API

  Java REST Client- https://www.elastic.co/guide/en/elasticsearch/client/java-rest/7.6/index.html

  7.2 基本配置

  7.2.1 找到原生的依赖

  API中原生依赖的位置

  

 dependency 

 

   groupId org.elasticsearch.client /groupId

   artifactId elasticsearch-rest-high-level-client /artifactId

   version 7.6.2 /version

   /dependency

  

 

  7.2.2 找对象

  AIP中对象位置

  

RestHighLevelClient client = new RestHighLevelClient(

 

   RestClient.builder(

   new HttpHost("localhost", 9200, "http"),

   new HttpHost("localhost", 9201, "http")));

  client.close();

  

 

  7.2.3 分析这个类中的方法

  配置基本的项目

  注意几个配置

  JDK版本:

  Javac编译版本

  JavaScript版本

  7.3 搭建环境

  7.3.1 依赖

  7.3.1.1 确保elasticsearch的版本和我们本地版本一致

  1 查看版本是否一致:

  2 自定义我们需要的版本7.6.1:

  

 properties 

 

   java.version 1.8 /java.version

   !-- 自定义 es依赖,保证和本地版本一致 --

   elasticsearch.version 7.6.1 /elasticsearch.version

   /properties

  

 

  7.3.2注入对象

  自定义配置类

  

@Configuration

 

  public class ElasticSearchClientConfig {

   @Bean

   public RestHighLevelClient restHighLevelClient(){

   RestHighLevelClient client = new RestHighLevelClient(

   RestClient.builder(

   new HttpHost("localhost", 9200, "http")));

   return client;

  

 

  源码中提供的对象(可以直接拿来用)

  虽然这里导入了3个类,静态内部类,但是核心类就只有一个:

  

class RestClientConfigurations {

 

   RestClientConfigurations() {

   @Configuration(

   proxyBeanMethods = false

   static class RestClientFallbackConfiguration {

   RestClientFallbackConfiguration() {

   @Bean

   @ConditionalOnMissingBean

   RestClient elasticsearchRestClient(RestClientBuilder builder) {

   return builder.build();

   @Configuration(

   proxyBeanMethods = false

   @ConditionalOnClass({RestHighLevelClient.class})

   static class RestHighLevelClientConfiguration {

   RestHighLevelClientConfiguration() {

   //RestHighLevelClient 高级客户端,也是我们这里要讲,后面项目会用到的客户端

   @Bean

   @ConditionalOnMissingBean

   RestHighLevelClient elasticsearchRestHighLevelClient(RestClientBuilder restClientBuilder) {

   return new RestHighLevelClient(restClientBuilder);

   //RestClient 普通客户端

   @Bean

   @ConditionalOnMissingBean

   RestClient elasticsearchRestClient(RestClientBuilder builder, ObjectProvider RestHighLevelClient restHighLevelClient) {

   RestHighLevelClient client = (RestHighLevelClient)restHighLevelClient.getIfUnique();

   return client != null ? client.getLowLevelClient() : builder.build();

   @Configuration(

   proxyBeanMethods = false

   static class RestClientBuilderConfiguration {

   RestClientBuilderConfiguration() {

   //RestClientBuilder

   @Bean

   @ConditionalOnMissingBean

   RestClientBuilder elasticsearchRestClientBuilder(RestClientProperties properties, ObjectProvider RestClientBuilderCustomizer builderCustomizers) {

   HttpHost[] hosts = (HttpHost[])properties.getUris().stream().map(HttpHost::create).toArray((x$0) - {

   return new HttpHost[x$0];

   RestClientBuilder builder = RestClient.builder(hosts);

   PropertyMapper map = PropertyMapper.get();

   map.from(properties::getUsername).whenHasText().to((username) - {

   CredentialsProvider credentialsProvider = new BasicCredentialsProvider();

   Credentials credentials = new UsernamePasswordCredentials(properties.getUsername(), properties.getPassword());

   credentialsProvider.setCredentials(AuthScope.ANY, credentials);

   builder.setHttpClientConfigCallback((httpClientBuilder) - {

   return httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider);

   builder.setRequestConfigCallback((requestConfigBuilder) - {

   properties.getClass();

   map.from(properties::getConnectionTimeout).whenNonNull().asInt(Duration::toMillis).to(requestConfigBuilder::setConnectTimeout);

   properties.getClass();

   map.from(properties::getReadTimeout).whenNonNull().asInt(Duration::toMillis).to(requestConfigBuilder::setSocketTimeout);

   return requestConfigBuilder;

   builderCustomizers.orderedStream().forEach((customizer) - {

   customizer.customize(builder);

   return builder;

  

 

  7.4 测试API

  7.4.1 创建索引

  

//测试索引的创建 Request PUT kuang_index

 

  @Test

  void testCreateIndex() throws IOException {

   // 1.创建索引对象

   CreateIndexRequest request = new CreateIndexRequest("kuang_index");

   // 2.客户端执行请求 IndicesClient

   CreateIndexResponse createIndexResponse = client.indices().create(request, RequestOptions.DEFAULT);

   System.out.println(createIndexResponse);

  

 

  7.4.2 判断索引是否存在

  

//测试获取索引,只能判断其是否存在

 

  @Test

  void testExistIndex() throws IOException {

   GetIndexRequest request = new GetIndexRequest("kuang_index");

   boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);

   System.out.println("kuang_index是否存在:"+exists);

  

 

  7.4.3 删除索引

  

//测试删除索引

 

  @Test

  void testDeleteIndex() throws IOException {

   DeleteIndexRequest request = new DeleteIndexRequest("kuang_index");

   //删除

   AcknowledgedResponse delete = client.indices().delete(request, RequestOptions.DEFAULT);

   System.out.println("删除 kuang_index 是否成功:"+delete.isAcknowledged());

  

 

  7.4.4 添加文档

  7.4.4.1 导入依赖

  

 !-- fastjson -- 

 

   dependency

   groupId com.alibaba /groupId

   artifactId fastjson /artifactId

   version 1.2.62 /version

   /dependency

  

 

  7.4.4.2 创建实体类

  

@Data

 

  @AllArgsConstructor

  @NoArgsConstructor

  @Component

  public class User {

   private String name;

   private int age;

  

 

  7.4.4.3 添加文档

  

//测试添加文档

 

  @Test

  void testAddDocument() throws IOException {

   //创建对象

   User user = new User("狂神", 3);

   //创建请求

   IndexRequest request = new IndexRequest("kuang_index");

   //规则 put /kuang_index/_doc/1

   request.id("1");

   request.timeout(TimeValue.timeValueSeconds(1));

   request.timeout("1s");

   //将我们的数据放入请求 json

   IndexRequest source = request.source(JSON.toJSON(user), XContentType.JSON);

   //客户端发请求,获取相应的结果

   IndexResponse indexResponse = client.index(request, RequestOptions.DEFAULT);

   System.out.println(indexResponse.toString());

   //IndexResponse[index=kuang_index,type=_doc,id=1,version=1,result=created,seqNo=0,primaryTerm=1,shards={"total":2,"successful":1,"failed":0}]

   System.out.println(indexResponse.status()); //对应返回的状态 CREATED

  

 

  7.4.5 判断文档是否存在

  

//判断文档是否存在

 

  @Test

  void testIsExists() throws IOException {

   GetRequest getRequest = new GetRequest("kuang_index", "1");

   //不获取返回值,_source 的上下文

   getRequest.fetchSourceContext(new FetchSourceContext(false));

   getRequest.storedFields("_none_");

   boolean exists = client.exists(getRequest, RequestOptions.DEFAULT);

   System.out.println("判断1号文档是否存在:" + exists);

   //判断1号文档是否存在:true

  

 

  7.4.6 获得文档的信息

  

//获取文档信息

 

  @Test

  void testGetDocument() throws IOException {

   GetRequest getRequest = new GetRequest("kuang_index", "1");

   GetResponse getResponse = client.get(getRequest, RequestOptions.DEFAULT);

   System.out.println(getResponse.getSourceAsString()); //打印文档内容

  

 

  7.4.7 更新文档信息

  

//更新文档的信息

 

  @Test

  void testUpdateDocument() throws IOException{

   UpdateRequest updateRequest = new UpdateRequest("kuang_index", "1");

   updateRequest.timeout("1s");

   User user = new User("狂神说Java", 18);

   updateRequest.doc(JSON.toJSONString(user),XContentType.JSON); //XContentType.JSON 传入的数据类型

   UpdateResponse updateResponse = client.update(updateRequest, RequestOptions.DEFAULT);

   System.out.println("文档是否跟新成功:"+updateResponse.status());

  

 

  7.4.8 删除文档

  

//删除文档记录

 

  @Test

  void testDeleteDocument() throws IOException{

   DeleteRequest deleteRequest = new DeleteRequest("kuang_index", "1");

   deleteRequest.timeout("1s");

   DeleteResponse deleteResponse = client.delete(deleteRequest, RequestOptions.DEFAULT);

   System.out.println("文档是否删除成功:" + deleteResponse.status());

  

 

  7.4.9 批量处理请求

  

//特殊的,真的项目一般都会批量插入数据

 

  @Test

  void testBulkRequest() throws IOException{

   BulkRequest bulkRequest = new BulkRequest();

   bulkRequest.timeout("1s");

   ArrayList User userList = new ArrayList ();

   userList.add(new User("kuangshen1",3));

   userList.add(new User("kuangshen2",3));

   userList.add(new User("kuangshen3",3));

   userList.add(new User("kuangshen4",3));

   userList.add(new User("kuangshen5",3));

   userList.add(new User("kuangshen6",3));

   //批处理请求

   for (int i = 0; i userList.size(); i++) {

   //批量更新和批量删除,就在这里修改对应的请求就可以了

   bulkRequest.add(

   new IndexRequest("kuang_index")

   .id(""+(i+1)) //不设置id就会默认生成随机id

   .source(JSON.toJSONString(userList.get(i)),XContentType.JSON)

   BulkResponse bulkResponse = client.bulk(bulkRequest, RequestOptions.DEFAULT);

   System.out.println("添加处理请求是否失败:"+bulkResponse.hasFailures()); //false表示成功,true表示失败

  

 

  7.4.10 查询

  

// 查询

 

  //SearchRequest 搜索请i去

  //searchSourceBuilder 条件构造器

  //HighlightBuilder 构建高亮

  //TermQueryBuilder 精确查询

  //MatchAllQueryBuilder

  // xxxQueryBuilder 对应我们之前的所有命令

  @Test

  void testSearch() throws IOException {

   SearchRequest searchRequest = new SearchRequest("kuang_index");

   //构建搜索条件

   SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();

   //查询条件,我们可以使用QueryBuilders工具来实现

   //QueryBuilders.termQuery 精确查询

   //QuertBuilders.matchAllQuery() 匹配所有

   TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", "kuangshen1");

   sourceBuilder.query(termQueryBuilder);

   sourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));

   searchRequest.source(sourceBuilder);

   SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

   System.out.println("查询结果:"+JSON.toJSONString(searchResponse.getHits()));

   //查询结果:{"fragment":true,"hits":[{"fields":{},"fragment":false,"highlightFields":{},"id":"1","matchedQueries":[],"primaryTerm":0,"rawSortValues":[],"score":1.540445,"seqNo":-2,"sortValues":[],"sourceAsMap":{"name":"kuangshen1","age":3},"sourceAsString":"{\"age\":3,\"name\":\"kuangshen1\"}","sourceRef":{"fragment":true},"type":"_doc","version":-1}],"maxScore":1.540445,"totalHits":{"relation":"EQUAL_TO","value":1}}

   System.out.println("===================");

   for (SearchHit documentFields : searchResponse.getHits().getHits()) {

   System.out.println(documentFields.getSourceAsMap());

   //{name=kuangshen1, age=3}

  

 

  8、京东搜索

  8.1 项目搭建

  素材连接:https://pan.baidu.com/s/1M5uWdYsCZyzIAOcgcRkA_A#list/path=%2F

  提取码:qk8p

  感谢这位老铁- 杀神TH

  导入素材启动项目,访问页面

  indexController.java

  

@Controller

 

  public class IndexController {

   @GetMapping({"/","/index"})

   public String index(){

   return "index";

  

 

  8.2 爬取数据

  数据问题?数据库获取,消息队列,消息队列中获取,都可以成为数据源,爬虫!

  爬虫数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!)

  pojo:

  

@Data

 

  @AllArgsConstructor

  @NoArgsConstructor

  @Component

  public class Content {

   private String title;

   private String img;

   private String price;

  

 

  工具类:

  

@Component

 

  public class HtmlParseUtil {

   public static void main(String[] args) throws Exception {

   new HtmlParseUtil().parseJD("java").forEach(System.out::println);

   public ArrayList Content parseJD(String keyword) throws Exception{

   //获取请求https://search.jd.com/Search?keyword=java

   //前提,需要联网,ajax 不能获取到

   String url = "https://search.jd.com/Search?keyword="+keyword;

   //解析网页(Jsoup返回Document就是浏览器Document对象)

   Document document = Jsoup.parse(new URL(url), 30000);

   //所有在js中可以使用的方法,这里都能使用

   Element element = document.getElementById("J_goodsList");

  // System.out.println(element.html());

   //获取所有的li元素

   Elements elements = element.getElementsByTag("li");

   ArrayList Content goodsList = new ArrayList ();

   //获取元素中的内容,这里el,就是每个li标签

   for(Element el : elements){

   //关于这种图片特别多的网。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: