博格方略

1.4K⁺
1

Elastic search restful应用指南

架构师老狼推荐转载编程分享 2023-05-31 20:14:09

简介倒排索引全文搜索引擎目前主流的索引技术就是倒排索引的方式。传统的

倒排索引

全文搜索引擎目前主流的索引技术就是倒排索引的方式。传统的保存数据的方式都是：记录→单词。而倒排索引的保存数据的方式是：单词→记录, 基于分词技术构建倒排索引,每个记录保存数据时，都不会直接存入数据库。系统先会对数据进行分词，然后以倒排索引结构保存。

可以看到 Lucene 为倒排索引(Term Dictionary)部分又增加一层 Term Index 结构，用于快速定位，而这 Term Index 是缓存在内存中的，但 MySQL 的 B+tree 不在内存中，所以整体来看 ES 速度更快，但同时也更消耗资源（内存、磁盘）

集群操作

集群健康状态 - GET /_cat/health?v
绿 – 一切正常(集群功能齐全)
黄 – 所有数据可用，但有些副本尚未分配(集群功能完全)
红 – 有些数据不可用(集群部分功能)
查看节点的情况 - GET /_cat/nodes?v
查询各个索引状态 - GET /_cat/indices?v

索引

创建索引 - PUT /film
查看某一个索引的分片情况 - GET /_cat/shards/film?v
删除索引 - DELETE /film

文档操作

创建文档 - PUT /film/_doc/1 幂等性

{ "id":100,
  "name":"operation red sea",
  "doubanScore":8.5,
  "actorList":[  
  {"id":1,"name":"zhang yi"},
  {"id":2,"name":"hai qing"},
  {"id":3,"name":"zhang han yu"}
  ]}

POST /film/_doc/ 非幂等性

{
  "id":300,
  "name":"incident red sea",
  "doubanScore":5.0,
  "actorList":[  {"id":4,"name":"zhang cuishan111"}]
}

根据主键保证幂等性

查询某一个索引中的全部文档 - GET /film/_search
根据id查询某一个文档 - GET /film/_doc/3
根据文档id，删除某一个文档 - DELETE /film/_doc/3
修改文档 - PUT /film/_doc/3 对已经存在的文档进行替换(幂等性)

{
  "id":300,
  "name":"incident red sea",
  "doubanScore":5.0,
  "actorList":[  {"id":4,"name":"zhang cuishan"}]
}

POST /film/_doc/3/_update 更新文档中的某一个字段内容

{  "doc":  { "yy": "字符串" } }

Elasticsearch实际上并没有在底层执行就地更新，而是先删除旧文档，再添加新文档

批量创建文档

POST /film/_doc/_bulk

{"index":{"_id":66}}
{"id":300,"name":"incident red sea","doubanScore":5.0,"actorList":[{"id":4,"name":"zhang cuishan"}]}
{"index":{"_id":88}}
{"id":300,"name":"incident red sea","doubanScore":5.0,"actorList":[{"id":4,"name":"zhang cuishan"}]}

批量更新与删除文档

POST /film/_doc/_bulk

{"update":{"_id":"66"}}
{"doc": { "name": "wudangshanshang" } }
{"delete":{"_id":"88"}}

查询

GET /索引名/_search?q= &pretty这种方式不太适合复杂查询场景*

查询指定字段 - GET /film/_search

{  "_source": ["name", "doubanScore"]}

按分词查询(必须使用分词 text 类型)

GET /film/_search
{
  "query": {
    "match": {
      "actorList.name": "zhang han yu"
    }
  }}

按短语查询相当于like

GET /film/_search
{
  "query": {
    "match_phrase": {
      "actorList.name": "zhang han yu"
    }
  }}

不分词通过精准匹配进行查询

GET /film/_search
{
  "query": {
    "term": {
       "actorList.name.keyword":"zhang han yu"
    }
  }}

容错匹配

GET /film/_search
{
  "query": {
    "fuzzy": {
      "name": "radd"
    }
  }}

匹配和过滤同时

GET /film/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "red"
          }
        }], 
      "filter": {
        "term": {
          "actorList.id": "3"
        }
      }
    }}}

范围过滤，将豆瓣评分在6到9的文档查询出来

GET /film/_search
{
  "query": {
    "range": {
      "doubanScore": {
        "gte": 6,
        "lte": 9
      }}
  }}

按照豆瓣评分降序排序

GET /film/_search
{ "query": {
    "match": {
      "name": "red"
    }}, 
  "sort": [ {
      "doubanScore": {
        "order": "asc"
      }
    } ]}

分页查询

GET /film/_search
{"from": 0,  "size": 2}

搜索结果高亮

GET /film/_search
{
  "query": {
    "match": {
      "name": "red"
    }
  },
  "highlight": {
    "fields":  {"name":{} },
    "pre_tags": "<a>",
    "post_tags": "</a>"
  }
}

聚合 - 聚合提供了对数据进行分组、统计的能力，类似于 SQL 中 Group By 和 SQL 聚合函数。在 ElasticSearch 中，可以同时返回搜索结果及其聚合计算结果，这是非常强大和高效的。

GET /film/_search
{
  "aggs": {
    "groupByName": {
      "terms": {
        "field": "actorList.name.keyword",
        "size": 10,
        "order": {
          "avg_score": "desc"
        }
      },
      "aggs": {
        "avg_score": {
          "avg": {
            "field": "doubanScore"
          } }
      }}
  }}

.keyword 是某个字符串字段，专门储存不分词格式的副本，在某些场景中只允许只用不分词的格式，比如过滤 filter 比如聚合 aggs, 所以字段要加上.keyword 的后缀

中文分词

中文分词器对比

GET _analyze

{"analyzer": "ik_smart", "text": "我是中国人" }

{
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_CHAR",
      "position" : 1
    },
    {
      "token" : "中国人",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

自定义分词词库

<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
 <entry key="ext_dict">./myword.txt</entry>
 <!--用户可以在这里配置自己的扩展停止词字典-->
 <entry key="ext_stopwords"></entry>

Mapping

自定义mapping - 实际上每个 Type 中的字段是什么数据类型，由 mapping 定义，如果我们在创建 Index的时候，没有设定 mapping，系统会自动根据一条数据的格式来推断出该数据对应的字段类型，具体推断类型如下：true/false → boolean 1020 → long 20.1 → float “2018-02-01” → date “hello world” → text +keyword默认只有 text 会进行分词，keyword 是不会分词的字符串。mapping 除了自动定义还可以手动定义，但是只能对新加的、没有数据的字段进行定义，一旦有了数据就无法再做修改了。

PUT film01
{
  "mappings": {
    "movie":{
      "properties": {
        "id":{
          "type": "long"
        },
        "name":{
          "type": "keyword"
        },
        "doubanScore":{
          "type": "double"
        },
        "actorList":{
          "properties": {
            "id":{
              "type":"long"
            },
            "name":{
              "type":"keyword"
            }
          } } }
    } }}

copy索引数据

ElasticSearch 虽然强大，但是却不能动态修改 mapping 到时候我们有时候需要修改结构的时候不得不重新创建索引；ElasticSearch 为我们提供了一个 reindex 的命令，就是会将一个索引的快照数据 copy到另一个索引，默认情况下存在相同的_id 会进行覆盖（一般不会发生，除非是将两个索引的数据 copy 到一个索引中）

POST _reindex

{ "source": {
 "index": "my_index_name"
 },
 "dest": {
 "index": "my_index_name_new"
 }}

索引别名

应用场景 - 给多个索引分组，把多个索引归并到一组
给索引的一个子集创建视图相当于给 Index 加了一些过滤条件，缩小查询范围
创建索引并指定别名

PUT flim01
{ "aliases": {
      "film_chn_3_aliase": {}
  },

查看所有别名

GET /_cat/aliases

索引增加、删除索引

POST /_aliases
{ "actions": [
        { "remove": { "index": "movie_chn_1", "alias": "movie_chn_query" }},
        { "remove": { "index": "movie_chn_2", "alias": "movie_chn_query" }},
        { "add":    { "index": "movie_chn_3", "alias": "movie_chn_query" }}
    ]
}

索引模板

应用场景
分割索引
分割索引就是根据时间间隔把一个业务索引切分成多个索引。比如把 order_info 变成 order_info_20200101,order_info_20200102 这样做的好处有两个：
结构变化的灵活性
因为 ES 不允许对数据结构进行修改。但是实际使用中索引的结构和配置难免变化，那么只要对下一个间隔的索引进行修改，原来的索引维持原状。这样就有了一定的灵活性。要想实现这个效果，我们只需要在需要变化的索引那天将模板重新建立即可。
查询范围优化
因为一般情况并不会查询全部时间周期的数据，那么通过切分索引，物理上减少了扫描数据的范围，也是对性能的优化。
创建模板

PUT _template/template_film
{"index_patterns": ["film_test*"],                  
  "settings": {                                               
    "number_of_shards": 1
  },
  "aliases" : { 
    "{index}-query": {},
    "film_test-query":{}
  },
  "mappings": {                                          
    "_doc": {
      "properties": {
        "id": {
          "type": "keyword"
        },
        "movie_name": {
          "type": "text",
          "analyzer": "ik_smart"
        }}
    }}}

查询所有模板

GET _cat/templates

查询模板详情

GET _template/template_film*

转载链接：https://blog.51cto.com/u_15743821/6375487

Tags：

1427 1 0 1

本篇评论 —— 揽流光，涤眉霜，清露烈酒一口话苍茫。

提交

声明：参照站内规则，不文明言论将会删除，谢谢合作。

ABOUT ME

Blogger：袅袅牧童 | Arkin

Ido：PHP攻城狮

WeChat：nnmutong

Email：nnmutong@icloud.com

Elastic search restful应用指南

倒排索引

集群操作

索引

文档操作

查询

中文分词

Mapping

copy索引数据

索引别名

索引模板

相关文章

本篇评论 —— 揽流光，涤眉霜，清露烈酒一口话苍茫。

ABOUT ME

点击排行

最新评论

—— 揽流光，涤眉霜，清露烈酒一口话苍茫。

猜您喜欢

博格推荐

标签云

友情链接