Bootstrap

elasticsearch基础总结

最近实习,项目用的elasticseatch做的存储库,但是之前对于es接触的不多,查询语法有些不熟,每次想写个DSL查询时都要gpt或者施展搜索大法,所以索性就自己总结总结,以后忘了也方便查。所以这篇文章会持续更新。

数据类型

按照是否支持分词分为两大类:支持分词的数据类型,如text,match_only_text等,不支持的分词的数据类型,如keyword,date,数值型。也可以分为基本数据类型和复杂数据类型。

基本数据类型

数字类型

类型说明
byte
integer
short
long
double
float
half_float半精度16位浮点数
scaled_float缩放类型浮点数,按固定doble比例因为缩放
unsigned_long无符号64位整形

binary:编码为base64字符串的二进制值

boolean:布尔类型

alias:字段别名

keywords:包括keyword,constant_keyword和wildcard

dates:包括date,date_nanos

date的格式有yyyy-MM-dd HH:mm:ssyyyy-MM-dd时间戳

对象关系类型(复杂类型)

  • object:非基本数据类型,默认的json对象为object
  • flattened:单映射对象类型,其值为json
  • nested:嵌套数据类型
  • join:父子级关系类型

结构化类型

Range,IP,version,number3

聚合数据类型

aggregate_metric_double,histogram

文本搜索字段

text,completion,

es默认情况下会为text类型创建倒排索引

文档排名类型

空间数据类型

geo_point

其它数据类型

映射参数

analyzer:指定分词器,只有text类型字段才支持

coerce:是否支持强制类型转换

常用DSL总结

索引

  • 索引名和字段名命名规范:1.英文全小写 2.不要使用驼峰3.多个单词之间用_分隔

  • 索引的不可变性:索引创建成功后,索引名称、主分片数量(但可以修改副本数量)、字段类型不可变。

不可以删除某个字段,但可以新增字段。

查询索引

es8和es6相同

GET /索引名
或
GET /索引名/_mapping

删除索引

es8和es6相同

DELETE 索引名

创建索引

es8

PUT /索引名
{
  "settings":{
        
 },
  "mappings": {
    "properties": {
      "field1": {
        "type": "text"
      },
      "field2": {
        "type": "keyword"
      }
    }
  }
}

es8中默认一个索引中只有_doc一种type,创建索引时不用指定type,指定type会报错,指定_doc也不行

es6

PUT /索引名
{
  "settings":{
    "number_of_shards": 1,
    "number_of_replicas": 1
 },
  "mappings": {
    "类型名":{
      "properties": {
      "新字段": {
        "type": "字段类型"
      }
    }
   }
  }
}

es6中创建索引必须指定类型,不然会报错

修改索引

一个索引一旦创建后不可以删除字段、修改字段数据类型。但可以修改字段的其他属性,如fielddata等

添加新字段

es6

PUT 索引名/_mapping/类型名
{
    "properties":{
        "新字段名":{
            "type":"新字段类型"
        }
    }
}

es8

PUT 索引名/_mapping
{
    "properties":{
        "新字段名":{
            "type":"新字段类型"
        }
    }
}

修改settings

可以通过settings api修改某些settings,比如副本数量、index_refresh_interval、index_max_result_windows

PUT 索引名/_settings
{
    "number_of_replicas":3
}

reindex

reindex不是重建索引,而是将一个索引中的数据重建到另一个索引中

POST _reindex
{
    "source":{
        "index":"源索引名"
    },
    "dest":{
        "index":"目标索引名"
    }
}

文档

新增文档

手动指定id,使用PUT

新增文档时可选op_type参数,该参数有create、index两个值。create:不存在则创建,存在则报错。index:不存在则创建,存在则覆盖

# 也可写为 /索引名/_create/文档id 
PUT /索引名/_doc/文档id/?op_type=create
{
    "字段名":"字段值",
    "字段名":"字段值"
}
# 不可写为 /索引名/_index/文档id 
PUT /索引名/_doc/文档id/?op_type=index
{
    "字段名":"字段值",
    "字段名":"字段值"
}

使用index时,如果id为某个值的文档已经存在,则会全量更新!!!

或者

PUT /索引名/_doc/1
{
    "字段名":"字段值"
}

也是全量替换!!!

自动生成id,使用POST

# 也可以 /索引名/_doc/id  指定id
POST /索引名/_doc
{
    "属性名":"属性值"
}

查询文档

_source

source api控制返回哪些字段

如果设置为false,则只返回元数据

GET /索引名/_doc/文档id?_source=false #此处值默认就是true

也可以使用_source只查询source源数据,不返回元数据

GET /索引名/_source/文档id
_search
POST /goods/_search
{
  "query": {
    "term": {
      "title": "Apple"
    }
  }
}

除了term精准查询,还有range、match、mulit_match

批量查询文档
GET /_mget
{
    "doc":[
        {
            "_index":"索引名",
        	"_id":"文档id"
        },
        {
            "_index":"索引名",
        	"_id":"文档id"
		}
    ]
}
# 可以批量查询多个索引里的多个文档
GET /索引名/_mget
{
    "ids":[
        1,2
    ]
}
#根据id批量查询一个索引里的多个文档

修改文档

全量修改

覆盖原来的文档,其本质是根据指定id删除原来的文档,新增一个相同id的文档。如果根据id删除时,id不存在,第二步的新增也会执行,也就从修改变成了新增操作了。

PUT /{索引库名}/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    // ... 略
}

其实就是put指定id新增文档

增量修改

只修改指定id匹配的文档中的部分字段

使用_update(只能通过文档id去更新)

POST /索引名/_update/文档id
{
    "doc":{
        "属性名":"属性值",
        "属性名":"属性值"
    }
}
# 通过文档id更新

在7.x之前的版本还可以这样写

POST /索引名/_doc/文档id/_update
{
    "doc":{
        "属性名":"属性值"
    }
}

想通过query定制查询条件来更新文档,得通过_update_by_query,而且必须通过写scripts来更新

删除文档

根据query查询条件删除

删除时并不一定每次都知道文档id,通过具体查询条件删除

POST /索引名/_delete_by_query
{
    "query":{
        "term":{//或match
            "字段名":"字段值"
        }
    }
}

bulk

批量插入文档
POST /_bulk
{"action":{"_index":"索引名","_id":"文档id"}}
{"属性名":"属性值","属性名":"属性值"}
{"action":{"_index":"索引名","_id":"文档id"}}
{"属性名":"属性值","属性名":"属性值"}

# action的值可选index和create,跟前面一样
批量更新文档
POST /_bulk
{"update":{"_index":"索引名","_id":"文档id"}}
{"doc":{"属性名":"属性值","属性名":"属性值"}}
{"update":{"_index":"索引名","_id":"文档id"}}
{"doc":{"属性名":"属性值","属性名":"属性值"}}

批量删除文档
POST /_bulk
{"delete":{"_index":"goods","_id":"100"}}
{"delete":{"_index":"goods","_id":"101"}}

tips:1. 每个bulk写完后,最后要有一个换行2.bulk中的一个失败不会影响其它的

Mapping

自动映射

es运行可以不用像mysql等关系型数据库一样需要提前创建表结构,可以直接插入文档,由自动映射器自动确定类型。自动映射器推断字段类型的规则:

field typedymaicruntime
true|falsebooleanboolean
小数floatdouble
整数longlong
objectobject-
数组取决于数组中第一个非空元素的类型同左
日期格式字符串datedate
数字类型字符串text
其它字符串text+keywordkeyword

自动映射模版

将某一类字段自动映射成特定的数据类型

match_mapping_type

用于匹配数据类型

PUT /索引名
{
    "mappings":{
        "dynaic_templates":[
            {
                "模版名":{
                "match_mapping_type":"long",
                 "match":"num_*",   //表示字段名以num_开头
                 "unmatch":"*_text",  //表示字段名不以_text结尾
                "mapping":{
                    "type":"integer"
                }
               }
            },
            {
                "模版名":{
                    "match_mapping_type":"string",   //string表示文本
                    "mapping":{
                        "type":"keyword"
                    }
                }
            }
		]
    }
}

高阶查询

match

POST /索引名/_search
{
    "query":{
        "match":{
            "字段名":"字段值" 
        }
    }
}

match_all

可以认为和直接GET /索引名/_search查询没什么区别

agregations聚合分析(聚合查询)

语法:

POST product/_search
{
    "size":0, //不想让结果中包含hits就size为0
    "aggs":{
        "查询名字":{
            "聚合类型":{
                "field":"字段名",
                "size":10,   //设置桶的个数,默认为10
                "order":{
                    "_count":"asc"  //根据每个桶的文档数量升序
                }
            }
        }
    }
}

Bucket agregations

类比理解为msyql的分组查询,一个桶就是具有相同特征的一个组

聚合类型为terms时,结果:对所有的文档的某字段值进行分组查询

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

除了terms,还有range、date_histogram等

text类型的字段默认不会建立正排索引,所以桶聚合查询对text类型字段不生效,只对keyword类型生效。text类型字段建立正排索引不现实,而且也没意义。(你一般会在mysql里对varchar100 的desc字段建立索引?)

想对text类型的字段bucket查询,可以设置该字段的fielddata为true,则在查询时会在内存中进行分组,数据量很多时容易导致OOM,不建议这么做。

Metrics agregations指标聚合

例如统计最大、最小,平均值、总和、value_count,聚合类型分别为max、min、avg、sum、该字段值非空的文档数量。stats为这几个全部。

POST /索引名/_search
{
    "aggs":{
        "聚合查询名字":{
            "max":{
                "field":"字段名,如price"
            }
        },
        "聚合查询名字":{
            "min":{
                "field":"字段名,如price"
            }
        }
    }
}

管道聚合

跟linux里的管道一个意思,管道聚合查询就是在一个聚合查询结果作为另一个聚合查询的输入继续聚合查询。

例如查询平均价格最低的商品类型

POST /product/_search
{
    "aggs":{
        "查询名字1":{
            "terms":{
                "field":"type"	//先对商品类型桶聚合
            },   //在这个的基础上继续聚合查询
            "aggs":{
                "查询名称2":{
                    "avg":{
                        "field":"price"
                    }
                }
            }
        }, //这个整个聚合得到了各个分类的平均值
        "min_bucket":{
            "min_bucket":{
                "buckets_path":"查询名字1>查询名字2"
            }
        }
    }
}

在谁的基础上继续聚合查询就和谁平级

组合查询 bool query

must

must表示查询条件都要满足。即 and

GET /索引名/_search
{
    "query":{
        "bool":{
            "must":[  //must的值是数组,数组里的每一个查询条件都要满足
                {
                    "match":{
                        "字段名":"目标值"
                    }
                },//在这继续加must的其他查询条件
                {
                    "match_phrase":{
                        "字段名":"目标值"
                    }
                }
            ]
        }
    }
}

must_not

和must相反,must_not里的所有查询条件都是要排除的数据。即 !

GET /索引名/_search
{
    "query":{
        "bool":{
            "must_not":[  //must_not的值是数组,数组里的每一个查询条件都不满足
                {
                    "match":{
                        "字段名":"目标值"
                    }
                },//在这继续加must_not的其他查询条件
                {
                    "match_phrase":{
                        "字段名":"目标值"
                    }
                }
            ]
        }
    }
}

should

也就是 or

filter

和match一样,也是and,但是filter只是过滤掉不满足条件的文档,不参与评分计算。

并且以上查询都可以组合使用

Script

es设计了painless脚本语言,老版本中用的是Grovvy,但其安全性和性能远不及painless。但painless性能是不及DSL的
!

GET /索引名/_search
{
    "query":{
        "bool":{
            "must_not":[  //must_not的值是数组,数组里的每一个查询条件都不满足
                {
                    "match":{
                        "字段名":"目标值"
                    }
                },//在这继续加must_not的其他查询条件
                {
                    "match_phrase":{
                        "字段名":"目标值"
                    }
                }
            ]
        }
    }
}

should

也就是 or

filter

和match一样,也是and,但是filter只是过滤掉不满足条件的文档,不参与评分计算。

并且以上查询都可以组合使用

Script

es设计了painless脚本语言,老版本中用的是Grovvy,但其安全性和性能远不及painless。但painless性能是不及DSL的

;