分布式索引：如何在集群中快速定位数据

索引是数据检错的关键技术，那么在分布式数据库这种体量的数据容量下，如单机数据那样进行数据表全量扫描是非常不现实的，故分布式存储引擎的关键就是要通过索引查找目标数据。

本文章，我们就一起来看看分布式数据库索引相关的内容。

一、分布式索引是什么？

目前世界上主要的分布式数据库的数据存储形式，就是围绕着索引而设计的。由于分布式数据库的数据被分散在多个节点上，当查询请求到达服务端时，目标数据有极大的概率并不在该节点上，需要进行一次甚至多次远程调用才可查询到数据。由于以上的原因，在设计分布式数据库存储引擎时，我们更希望采用含有索引的数据表，从而减少查询的延迟。

这同时暗含了，大部分分布式数据库的场景是为查询服务的。数据库牺牲了部分写入的性能，在存入数据的时候同时生成索引结构。故分布式数据库的核心是以提供数据检索服务为主，数据写入要服务于数据查询。从这个意义上说，分布式索引就是数据存储的主要形式。

二、读取路径

掌握分布式数据库存储引擎，一般需要明确其写入路径与读取路径。但如上文讨论的那样，写入是严重依赖读取的，故明确读取路径我们就可以指明写入的规则。

因此这一部分，我们先来明确存储引擎是如何处理查询请求的。一般的规则如下：

1、寻找分片和目标节点；
2、检查数据是否在缓存与缓冲中；
3、检查数据是否在磁盘文件中；
4、合并结果。

第一步就是要查找数据在分布式系统的哪个目标节点上。严格说，这一步并不是存储引擎所囊括的部分，但为了表述清