一、前言
前面介绍过Redis的五大基础数据类型(String、Hash、List、Set、ZSet)由六种底层数据结构(简单动态字符串、链表、字典、跳跃表、整数集合、压缩列表)实现,本章主要分析这六种底层数据结构。
PS:Redis有八种编码,但底层数据机构是六种。
二、SDS(simple dynamic string)简单动态字符串
结构定义
struct sdshdr{
//记录buf数组中已使用字节的数量
//等于 SDS 保存字符串的长度
int len;
//记录 buf 数组中未使用字节的数量
int free;
//字节数组,用于保存字符串
char buf[];
}
SDS保存的字符串结构图示:
优势:
- 常数复杂度获取字符串长度
由于 len 属性的存在,我们获取 SDS 字符串的长度只需要读取 len 属性,时间复杂度为 O(1)。而对于 C 语言,获取字符串的长度通常是经过遍历计数来实现的,时间复杂度为 O(n)。通过 strlen key 命令可以获取 key 的字符串长度。
- 杜绝缓冲区溢出
在 C 语言中使用 strcat 函数来进行两个字符串的拼接,一旦没有分配足够长度的内存空间,就会造成缓冲区溢出。而对于 SDS 数据类型,在进行字符修改的时候,会首先根据记录的 len 属性检查内存空间是否满足需求,如果不满足,会进行相应的空间扩展,然后在进行修改操作,所以不会出现缓冲区溢出。
-
减少修改字符串的内存重新分配次数
-
二进制安全
-
兼容部分C字符串函数
SDS 除了保存数据库中的字符串值以外,SDS 还可以作为缓冲区(buffer):包括 AOF 模块中的AOF缓冲区以及客户端状态中的输入缓冲区
三、链表
链表的定义
//链表节点
typedef struct listNode{
//前置节点
struct listNode *prev;
//后置节点
struct listNode *next;
//节点的值
void *value;
}listNode
通过多个 listNode 结构就可以组成链表,这是一个双端链表,Redis还提供了操作链表的数据结构:
typedef struct list{
//表头节点
listNode *head;
//表尾节点
listNode *tail;
//链表所包含的节点数量
unsigned long len;
//节点值复制函数
void (*free) (void *ptr);
//节点值释放函数
void (*free) (void *ptr);
//节点值对比函数
int (*match) (void *ptr,void *key);
}list;
链表特性
- 双端:链表具有前置节点和后置节点的引用,获取这两个节点的时间复杂度都为O(1)
- 无环:表头节点的prev指针和表节点的next指针向NULL
- 长度计数器:获取长度时间复杂度O(1)
- 多态:链表节点使用void*指针来保存节点值,可以保存不同类型的值
四、字典
字典又称为符号表或者关联数组、或映射(map),是一种用于保存键值对的抽象数据结构。字典中的每一个键 key 都是唯一的,通过 key 可以对值来进行查找或修改。
- Redis 的字典使用哈希表作为底层实现。
哈希表结构定义:
typedef struct dictht{
//哈希表数组
dictEntry **table;
//哈希表大小
unsigned long size;
//哈希表大小掩码,用于计算索引值
//总是等于 size-1
unsigned long sizemask;
//该哈希表已有节点的数量
unsigned long used;
}dictht
哈希表是由数组 table 组成,table 中每个元素都是指向 dict.h/dictEntry 结构,dictEntry 结构定义如下:
typedef struct dictEntry{
//键
void *key;
//值
union{
void *val;
uint64_tu64;
int64_ts64;
}v;
//指向下一个哈希表节点,形成链表
struct dictEntry *next;
}dictEntry
key 用来保存键,val 属性用来保存值,值可以是一个指针,也可以是uint64_t整数,也可以是int64_t整数。
注意: 这里还有一个指向下一个哈希表节点的指针,我们知道哈希表最大的问题是存在哈希冲突,如何解决哈希冲突,有开放地址法和链地址法。这里采用的便是链地址法,通过next这个指针可以将多个哈希值相同的键值对连接在一起,用来解决哈希冲突。
4.1 Hash表特性
(1) 哈希算法:Redis计算哈希值和索引值方法如下:
#1、使用字典设置的哈希函数,计算键 key 的哈希值
hash = dict->type->hashFunction(key);
#2、使用哈希表的sizemask属性和第一步得到的哈希值,计算索引值
index = hash & dict->ht[x].sizemask;
(2) 解决哈希冲突: 链地址法,通过字典里面的 *next 指针指向下一个具有相同索引值的哈希表节点。
(3) 扩容和收缩:当哈希表保存的简直对太多或太少的时候,就需要通过rehash(重新散列)来对哈希表进行相应的扩展或者收缩。具体步骤:
- 扩展操作:每次扩展都是根据原哈希表已使用的空间扩大一倍创建另一个哈希表;如果执行的是收缩操作:每次收缩根据已使用空间缩小一倍创建一个新的哈希表;
- 重新计算索引值(哈希算法),将键值对应到新的哈希表位置上;
- 所有键值迁移完成之后,释放旧哈希表的空间。
(4) 触发扩容的条件:
- Redis服务目前没有执行BGSAVE命令或者BGREWRITEAOF命令,并且负载因子>=1;
- Redis服务目前正在执行 BGSAVE命令或者BGREWRITEAOF命令,并且负载因子>=5;
- 负载因子= 哈希表已保存节点数量 / 哈希表大小,渐进式rehash: 初始化扩容/收缩之后,查询在新旧两个哈希表查询,新增存放在新的哈希表,在迁移完成之后删除旧哈希表。
(5) 渐近式 rehash:
什么叫渐进式 rehash?也就是说扩容和收缩操作不是一次性、集中式完成的,而是分多次、渐进式完成的。如果保存在Redis中的键值对只有几个几十个,那么 rehash 操作可以瞬间完成,但是如果键值对有几百万,几千万甚至几亿,那么要一次性的进行 rehash,势必会造成Redis一段时间内不能进行别的操作。所以Redis采用渐进式 rehash,这样在进行渐进式rehash期间,字典的删除查找更新等操作可能会在两个哈希表上进行,第一个哈希表没有找到,就会去第二个哈希表上进行查找。但是进行 增加操作,一定是在新的哈希表上进行的。
五、跳跃表SkipList
跳表另外总结了一篇详细的,链接:深入理解Redis-跳跃表
六、压缩表ZipList
-
压缩列表(ziplist)是Redis为了节省内存而开发的,是由一系列特殊编码的连续内存块组成的顺序型数据结构,一个压缩列表可以包含任意多个节点(entry),每个节点可以保存一个字节数组或者一个整数值。
-
压缩列表的原理:压缩列表并不是对数据利用某种算法进行压缩,而是将数据按照一定规则编码在一块连续的内存区域,目的是节省内存。
结构定义:
//列表节点
typedef struct ziplistNode{
// 记录压缩列表前一个字节的长度.
int previous_entry_length;
// 节点的content的内容类型以及长度.encoding类型一共有两种,一种字节数组一种是整数,encoding区域长度为1字节、2字节或者5字节长。
buf encoding;
// 节点的内容,节点内容类型和长度由encoding决定。
buf content;
}
// 压缩表
typedef struct ziplist{
//表头节点和表尾节点
structz ziplistNode entryX;
//表中节点的数量
unsigned long length;
//表中层数最大的节点的层数
int zlbytes;
int zltail;
int zlen;
int zlend:
}ziplist;
结构图:
压缩表特性:
节点数据
(1) previous_entry_ength:记录压缩列表前一个字节的长度。previous_entry_ength的长度可能是1个字节或者是5个字节,如果上一个节点的长度小于254,则该节点只需要一个字节就可以表示前一个节点的长度了,如果前一个节点的长度大于等于254,则previous length的第一个字节为254,后面用四个字节表示当前节点前一个节点的长度。利用此原理即当前节点位置减去上一个节点的长度即得到上一个节点的起始位置,压缩列表可以从尾部向头部遍历。这么做很有效地减少了内存的浪费。
(2) encoding:节点的encoding保存的是节点的content的内容类型以及长度,encoding类型一共有两种,一种字节数组一种是整数,encoding区域长度为1字节、2字节或者5字节长。
(3) content:content区域用于保存节点的内容,节点内容类型和长度由encoding决定。
七、整数集合intset
整数集合intset是Redis用于保存整数值的集合抽象数据类型,他可以保存类型为int16_t,int32_t或者int64_t的整数值,并且保证集合中不会出现重复元素。
结构定义:
typedef struct intset{
//编码方式
uint32_t encoding;
//集合包含的元素数量
uint32_t length;
//保存元素的数组
int8_t contents[];
}intset;
- 整数集合的每一个元素都是contents数组的一个数据项,他们按照从大到小的顺序排列,并且不包含任何重复项;
- length属性记录来contents数组的大小;
- 需要注意的是虽然contents数组声明为int_8类型,但是实际上contents数组并不保存任何int_8类型的值,其真正类型由encoding来决定。
升级:
当我们新增的元素类型比原集合类型的长度要大时,需要对数组集合进行升级,才能将新元素放入整数集合中,具体步骤:
-
根据新元素的类型,扩展整数集合底层数组的大小/类型,并为新元素分配空间;
-
如果扩展了类型,将底层数组现在的元素都转换为新元素的类型,并在转换后放到对应的位置,放置过程中,维持整个数组元素都是有序的;
-
将新元素添加到整数集合中。
降级
整数集合不支持降级操作,一旦对数组进行来升级,编码就会一直保持升级后的状态。
附:
八、总结
-
大多数情况下,Redis使用简单字符串SDS作为字符串的表示,相对于C语言字符串,SDS具有常数复杂度获取字符串长度,杜绝了缓存区的溢出,减少了修改字符串长度时所需的内存重分配次数,以及二进制安全能存储各种类型的文件,并且还兼容部分C函数。
-
通过为链表设置不同类型的特定函数,Redis链表可以保存各种不同类型的值,除了用作列表键,还在发布与订阅、慢查询、监视器等方面发挥作用(后面会介绍)。
-
Redis的字典底层使用哈希表实现,每个字典通常有两个哈希表,一个平时使用,另一个用于rehash时使用,使用链地址法解决哈希冲突。
-
跳跃表通常是有序集合的底层实现之一,表中的节点按照分值大小进行排序。
-
整数集合是集合键的底层实现之一,底层由数组构成,升级特性能尽可能的节省内存。
-
压缩列表是Redis为节省内存而开发的顺序型数据结构,通常作为列表键和哈希键的底层实现之一。
本文转载自:https://www.cnblogs.com/ysocean/p/9080942.html