ES filter和post_filter的区别
在Elasticsearch中,过滤搜索的结果是我们经常要做的事。在我刚开始接触 Elasticsearch,我就了解到有两种可以过滤搜索结果的方法。当时还不是很明白,为什么有的地方用 filter,而有的地方需要使用到 post_filter。在今天的文章中,我来用一个鲜活的例子来进行展示。
总体说来,我们可以使用如下的两个方法来过滤搜索的结果:
使用带有 filter 子句的布尔查询。搜索请求将布尔过滤器应用于搜索命中和聚合。
使用搜索 API 的 post_filter参数。搜索请求仅将 post_filter应用于搜索命中,而不是聚合。你可以使用 post_filter根据更广泛的结果集计算聚合,然后进一步缩小结果。讲得通俗一点:在已经计算聚合之后,post_filter 将应用于搜索请求最后的搜索命中。从这里的描述中,我们可以看出来,post_filter的使用和 aggregation 相关。
你还可以在 post_filter之后重新对命中进行评分,以提高相关性并重新排序结果
Post filter
当你使用 post_filter 参数过滤搜索结果时,会在计算聚合后过滤搜索命中。 Post filter 对聚合结果没有影响。
例如,你销售的衬衫具有以下属性:
PUT shirts
{
"mappings": {
"properties": {
"brand": { "type": "keyword"},
"color": { "type": "keyword"},
"model": { "type": "keyword"}
}
}
}
我们使用如下的命令来摄入 3 个文档:
PUT shirts/_doc/1?refresh
{
"brand": "gucci",
"color": "red",
"model": "slim"
}
PUT shirts/_doc/2?refresh
{
"brand": "polo",
"color": "red",
"model": "large"
}
PUT shirts/_doc/3?refresh
{
"brand": "polo",
"color": "blue",
"model": "medium"
}
假想你有一个用户,他想买一个 red 的衣服。通常你会使用如下的 bool query:
GET shirts/_search?filter_path=**.hits
{
"query": {
"bool": {
"filter": [
{
"term": {
"color": "red"
}
}
]
}
}
}
上面显示的结果为:
{
"hits" : {
"hits" : [
{
"_index" : "shirts",
"_id" : "1",
"_score" : 0.0,
"_source" : {
"brand" : "gucci",
"color" : "red",
"model" : "slim"
}
},
{
"_index" : "shirts",
"_id" : "2",
"_score" : 0.0,
"_source" : {
"brand" : "polo",
"color" : "red",
"model" : "large"
}
}
]
}
}
显然搜索的结果显示了所有 red 的衣服。但是,你还想使用分面导航来显示用户可以单击的其他选项列表(比如大小尺寸)。 也许你有一个 model 字段,允许用户将搜索结果限制为红色 Gucci T 恤或 Polo 的衣服。这可以通过 terms aggregation 来完成:
GET shirts/_search
{
"query": {
"bool": {
"filter": [
{
"term": {
"color": "red"
}
}
]
}
},
"aggs": {
"models": {
"terms": {
"field": "model"
}
}
}
}
在上面,我们通过 terms 聚合来显示各个尺寸(model)的文档数。最多的将排在前面。上面命令显示的结果为:
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 2,
"relation" : "eq"
},
"max_score" : 0.0,
"hits" : [
{
"_index" : "shirts",
"_id" : "1",
"_score" : 0.0,
"_source" : {
"brand" : "gucci",
"color" : "red",
"model" : "slim"
}
},
{
"_index" : "shirts",
"_id" : "2",
"_score" : 0.0,
"_source" : {
"brand" : "polo",
"color" : "red",
"model" : "large"
}
}
]
},
"aggregations" : {
"models" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : "large",
"doc_count" : 1
},
{
"key" : "slim",
"doc_count" : 1
}
]
}
}
}
在上面,我们可以看出颜色为 red 的衣服,各个 model 的统计情况:large 及 slim 个一件。显然这个是我们想要的结果。我们注意到的一点是 aggregation 是基于前面的 boolean filter 所过滤后的数据集来进行统计的。其统计结果都是是红色的衣服。
但也许你还想告诉用户有多少 polo 衬衫可供选择而不是所有的品牌。我们可以使用如下的搜索:
GET shirts/_search
{
"query": {
"bool": {
"filter": [
{
"term": {
"color": "red"
}
}
]
}
},
"aggs": {
"models": {
"terms": {
"field": "model"
}
}
},
"post_filter": {
"term": {
"brand": "polo"
}
}
}
在上面,我们使用 filter 把 red 的文档搜索出来,然后使用 terms aggregatiion 来对所有 red 的文档进行 model 的统计。我们接下来使用 post_filter 来对我们的搜索结果再次过滤。在这里需要注意的是:post_filter 的使用不会对 aggs 的结果产生任何的影响。如同上面写的顺序一样,post_filter 是在最后面运行的。上面的命令产生的结果是:
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1,
"relation" : "eq"
},
"max_score" : 0.0,
"hits" : [
{
"_index" : "shirts",
"_id" : "2",
"_score" : 0.0,
"_source" : {
"brand" : "polo",
"color" : "red",
"model" : "large"
}
}
]
},
"aggregations" : {
"models" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : "large",
"doc_count" : 1
},
{
"key" : "slim",
"doc_count" : 1
}
]
}
}
}
如上所示,我们最终得到的搜索结果是 color:red 并且 brand:polo 的搜索结果,但是 aggregations 的结果是针对 color:red 而的出来的。我们可以看到上面的 slim 统计结果是来自 gucci 品牌的而不是 polo。
更为复杂的查询是这样的:
GET shirts/_search
{
"query": {
"bool": {
"filter": {
"term": { "brand": "polo" }
}
}
},
"aggs": {
"colors": {
"terms": { "field": "color" }
},
"color_red": {
"filter": {
"term": { "color": "red" }
},
"aggs": {
"models": {
"terms": { "field": "model" }
}
}
}
},
"post_filter": {
"term": { "color": "red" }
}
}
在上面,我们首先使用的 filter 来过滤数据集。只有 brand:polo 的文档才可以进行聚合。aggs 里含有两个 aggregations。一个是按照 colors 来进行的分类,另外一个是先过滤 red 颜色的 polo,然后再按照 model 进行分类。在最后,我们使用 post_fitler 来过滤结果。最终的搜索结果(位于 hits 里)是 brand:polo 并且 color:red:
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1,
"relation" : "eq"
},
"max_score" : 0.0,
"hits" : [
{
"_index" : "shirts",
"_id" : "2",
"_score" : 0.0,
"_source" : {
"brand" : "polo",
"color" : "red",
"model" : "large"
}
}
]
},
"aggregations" : {
"color_red" : {
"doc_count" : 1,
"models" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : "large",
"doc_count" : 1
}
]
}
},
"colors" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : "blue",
"doc_count" : 1
},
{
"key" : "red",
"doc_count" : 1
}
]
}
}
}
作者:Elasticsearch
链接:https://juejin.cn/post/7114169318669025316