Bootstrap

Milvus - 标量字段索引技术解析

概述

在大规模向量相似性搜索场景中,结合标量字段和向量字段的过滤搜索需求日益增加。Milvus 2.1.0 版本引入的标量字段索引,为此类查询提供了极大的性能提升。本文将探讨 Milvus 的标量字段索引技术,包括其原理、实现方法、使用场景及性能优势。

为什么选择标量字段索引?

当在 Milvus 中进行向量相似性搜索时,可能希望通过一些标量字段(例如,数值、字符串字段)来进行筛选,以实现更精准的搜索结果。例如,在图像检索中,可以根据图片上传日期等标量字段来筛选结果。然而,标量字段过滤的效率直接影响最终查询的速度。为了解决这一瓶颈,Milvus 引入了标量字段索引,它可以有效组织标量字段的数据,并结合倒排索引、自动索引等技术,极大提升查询效率。

标量字段索引的工作原理

在接收到带有布尔表达式的搜索请求时,Milvus 会将表达式解析为抽象语法树(AST),并生成对应的物理计划。然后,Milvus 在每个数据段中执行物理计划,生成比特集作为过滤结果,再将此结果用于向量搜索参数,以缩小搜索范围。

1. 标量字段索引的分段过滤

标量字段索引的作用在于加速分段内的属性过滤过程。它以特定方式对标量字段值进行排序,使得信息检索速度大大提升。Milvus 提供了两种主要的标量字段索引算法:自动索引和反转索引。

2. 自动索引与反转索引

  • 自动索引:适用于频繁检索、前缀匹配等查询。Milvus 可以基于标量字段的数据类型自动创建索引,无需手动干预。
  • 反转索引:提供了手动配置的灵活性,适合更复杂的场景,如点查询、模式匹配、全文检索、布尔搜索和 JSON 查询。
自动索引的数据类型支持
数据类型自动索引算法
VARCHAR反转索引
INT8反转索引
INT16反转索引
INT32反转索引
INT64反转索引
FLOAT反转索引
二进制反转索引
反转索引的优势

Milvus 中的反转索引由 Tantivy(一个高效的全文搜索引擎库)支持。Tantivy 确保了 Milvus 的反转索引在性能和速度上的优越性。反转索引由术语字典和倒排列表两部分组成,其中术语字典是按字母顺序排列的所有标记词列表,而倒排列表记录每个词所关联的文档。这样设计让反转索引在点查询和范围查询中比暴力搜索快得多。

  • 点查询:通过在术语字典中查找关键字并获取相关倒排列表,避免了大量无效遍历。
  • 范围查询:利用已排序的术语字典更快速地定位符合条件的内容,进一步加速检索过程。

Milvus 中标量字段索引的使用

在 Milvus 中使用标量字段索引可以显著提高带有标量字段筛选的查询性能,以下是一些常见的使用方法和参数配置。

1. 配置自动索引

Milvus 自动为支持的数据类型(如 VARCHARINT 等)创建索引,无需手动干预。在执行搜索时,仅需构造包含布尔表达式的查询条件,Milvus 会自动处理索引。

# 假设我们有一个字符串和整型标量字段
search_params = {
    "bool_expr": "age > 30 AND status == 'active'"
}
results = collection.search(data=query_vectors, anns_field="embedding", param=search_params, limit=top_K)

2. 手动配置反转索引

反转索引支持更灵活的查询需求,适合点查询、前缀匹配、范围查询等操作。通过反转索引可在 Milvus 中手动配置标量字段的索引。

# 使用倒排索引来支持复杂的查询场景
index_params = {
    "field_name": "attribute_field",
    "index_type": "INVERTED_INDEX"
}
collection.create_index(index_params=index_params)

3. 查询示例

一旦标量字段索引构建完毕,可以通过以下方式进行点查询和范围查询。

# 点查询:根据某个值精确匹配
point_query = "category == 'Electronics'"
results = collection.search(data=query_vectors, anns_field="embedding", bool_expr=point_query, limit=top_K)

# 范围查询:查找某个范围内的数据
range_query = "price > 500 AND price < 1000"
results = collection.search(data=query_vectors, anns_field="embedding", bool_expr=range_query, limit=top_K)

标量索引性能测试结果

为了验证标量字段索引的性能优势,实验对比了倒排索引和暴力搜索的性能表现。实验在包含 100 万条记录的数据集上进行测试,结果表明:

  • 点查询:使用倒排索引的查询性能比暴力搜索快 30 倍。
  • 范围查询:使用倒排索引在大数据集上的性能提升更加显著。

这些结果表明,倒排索引在大规模数据场景中提供了更高效的查询性能。

性能建议

使用 Milvus 标量字段索引时,可以根据数据类型和数据量,估算所需的内存大小,以更好地进行资源规划。以下为不同数据类型的内存估算公式:

数值字段

数据类型内存估算函数(MB)
INT8行数 * 12 / 1024 / 1024
INT16行数 * 12 / 1024 / 1024
INT32行数 * 12 / 1024 / 1024
INT64行数 * 24 / 1024 / 1024
FLOAT32行数 * 12 / 1024 / 1024
二进制行数 * 24 / 1024 / 1024

字符串字段

字符串长度内存估算函数(MB)
(0, 8]行数 * 128 / 1024 / 1024
(8, 16]行数 * 144 / 1024 / 1024
(16, 32]行数 * 160 / 1024 / 1024
(32, 64]行数 * 192 / 1024 / 1024
(64, 128]行数 * 256 / 1024 / 1024
(128, 65535]行数 * strLen * 1.5 / 1024 / 1024

结论

标量字段索引为 Milvus 向量相似性搜索增添了强大的筛选能力,使得在处理具有大量标量属性的数据集时,查询性能显著提升。通过选择适当的索引类型和合理的配置,您可以在搜索精度和查询效率之间找到理想的平衡点,满足复杂数据处理场景的业务需求。

;