通讯流程
元数据信息机制
在分布式存储中需要提供维护节点元数据信息的机制,所谓元数据是指:
- 节点负责哪些数据;
- 是否出现故障等状态信息。
常见的元数据维护方式
常见的元数据维护方式分为:
- 集中式
- P2P方式
Redis集群采用的元数据维护方式
Redis集群采用P2P的Gossip(流言)协议, Gossip协议工作原理就是节点彼此不断通信交换信息,一段时间后所有的节点都会知道集群完整的信息,这种方式类似流言传播。
集群中每个节点通过一定规则挑选要通信的节点,每个节点可能知道全部节点,也可能仅知道部分节点,只要这些节点彼此可以正常通信,最终它们会达到一致的状态。当节点出故障、新节点加入、主从角色变化、槽信息 变更等事件发生时,通过不断的ping/pong消息通信,经过一段时间后所有的节点都会知道整个集群全部节点的最新状态,从而达到集群状态同步的目的。
分析通讯过程:
- 集群中的每个节点都会单独开辟一个TCP通道,用于节点之间彼此通信,通讯端口号在基础端口上加10000。
- 每个节点在固定周期内通过特定规则选择几个节点发送ping消息。
- 接受到ping消息的节点用pong消息响应。
Gossip消息
Gossip协议的主要职则是信息交换。
信息交换的载体就是节点彼此发送的Gossip消息。
常用的Gossip消息:
- meet消息
- ping消息
- pong消息
- fail消息
具体细节将“故障转移”中说明。
消息格式分析
消息格式划分:
-
消息头
- 消息头包含发送节点自身状态数据,接收节点根据消息头就可以获取到发送节点的相关数据;
- 集群内所有的消息都采用相同的消息头结构clusterMsg,它包含了发送节点关键信息,如节点id、槽映射、节点标识(主从角色,是否下线)等。
typedef struct { char sig[4]; /* 信号标示 */ uint32_t totlen; /* 消息总长度 */ uint16_t ver; /* 协议版本*/ uint16_t type; /* 消息类型,用于区分meet,ping,pong等消息 */ uint16_t count; /* 消息体包含的节点数量,仅用于meet,ping,ping消息类型*/ uint64_t currentEpoch; /* 当前发送节点的配置纪元 */ uint64_t configEpoch; /* 主节点/从节点的主节点配置纪元 */ uint64_t offset; /* 复制偏移量 */ char sender[CLUSTER_NAMELEN]; /* 发送节点的nodeId */ unsigned char myslots[CLUSTER_SLOTS/8]; /* 发送节点负责的槽信息 */ char slaveof[CLUSTER_NAMELEN]; /* 如果发送节点是从节点,记录对应主节点的nodeId */ uint16_t port; /* 端口号 */ uint16_t flags; /* 发送节点标识,区分主从角色,是否下线等 */ unsigned char state; /* 发送节点所处的集群状态 */ unsigned char mflags[3]; /* 消息标识 */ union clusterMsgData data /* 消息正文 */; } clusterMsg;
-
消息体
- 消息体在Redis内部采用clusterMsgData结构声明。
union clusterMsgData { /* ping,meet,pong消息体*/ struct { /* gossip消息结构数组 */ clusterMsgDataGossip gossip[1]; } ping; /* FAIL 消息体 */ struct { clusterMsgDataFail about; } fail; // ... };
- 消息体clusterMsgData定义发送消息的数据,其中ping、meet、pong都采用cluster MsgDataGossip数组作为消息体数据,实际消息类型使用消息头的 type 属性区分。每个消息体包含该节点的多个clusterMsgDataGossip结构数据,用于信息交换。
typedef struct { char nodename[CLUSTER_NAMELEN]; /* 节点的nodeId */ uint32_t ping_sent; /* 最后一次向该节点发送ping消息时间 */ uint32_t pong_received; /* 最后一次接收该节点pong消息时间 */ char ip[NET_IP_STR_LEN]; /* IP */ uint16_t port; /* port*/ uint16_t flags; /* 该节点标识, */ } clusterMsgDataGossip;
消息处理流程
接收节点收到ping/meet消息时,执行解析消息头和消息体流程:
- 解析消息头过程:消息头包含了发送节点的信息,如果发送节点是新 节点且消息是meet类型,则加入到本地节点列表;如果是已知节点,则尝试更新发送节点的状态,如槽映射关系、主从角色等状态。
- 解析消息体过程:如果消息体的clusterMsgDataGossip数组包含的节点是新节点,则尝试发起与新节点的meet握手流程;如果是已知节点,则根据 cluster MsgDataGossip中的flags字段判断该节点是否下线,用于故障转移。
消息处理完后回复pong消息,内容同样包含消息头和消息体,发送节点接收到回复的pong消息后,采用类似的流程解析处理消息并更新与接收节点最后通信时间,完成一次消息通信。
节点选择
- 虽然Gossip协议的信息交换具有天然的分布式特性,但是有成本的。由于内部需要频繁地进行节点信息交换,而 ping/pong 消息会携带当前节点和部分其他节点的状态数据,势必会加重带宽和计算的负担。
- Redis集群内节点通信采用固定频率(定时任务每秒执行10次)。因此节点每次选择需要通信的节点列表变得非常重要。通信节点选择过多虽然可以做到信息及时交换但成本过高。节点选择过少会降低集群内所有节点彼此信息交换频率, 从而影响故障判定、新节点发现等需求的速度。
因此Redis集群的Gossip协议需要兼顾信息交换实时性和成本开销,通信节点选择的规则如图所示。
根据通信节点选择的流程可以看出消息交换的成本主要体现在单位时间选择发送消息的节点数量和每个消息携带的数据量。
- 选择发送消息的节点数量
集群内每个节点维护定时任务默认每秒执行10次,每秒会随机选取5个 节点找出最久没有通信的节点发送ping消息,用于保证Gossip信息交换的随 机性。每100毫秒都会扫描本地节点列表,如果发现节点最近一次接受pong 消息的时间大于cluster_node_timeout/2,则立刻发送ping消息,防止该节点信 息太长时间未更新。根据以上规则得出每个节点每秒需要发送ping消息的数量=1+10*num(node.pong_received>cluster_node_timeout/2),因此 cluster_node_timeout参数对消息发送的节点数量影响非常大。当我们的带宽 资源紧张时,可以适当调大这个参数,如从默认15秒改为30秒来降低带宽占 用率。过度调大cluster_node_timeout会影响消息交换的频率从而影响故障转移、槽信息更新、新节点发现的速度。因此需要根据业务容忍度和资源消耗进行平衡。同时整个集群消息总交换量也跟节点数成正比。 - 消息数据量
每个ping消息的数据量体现在消息头和消息体中,其中消息头主要占用 空间的字段是myslots[CLUSTER_SLOTS/8],占用2KB,这块空间占用相对固定。消息体会携带一定数量的其他节点信息用于信息交换。具体数量见以下伪代码:
def get_wanted():
int total_size = size(cluster.nodes) # 默认包含节点总量的1/10
int wanted = floor(total_size/10);
if wanted < 3:
# 至少携带3个其他节点信息
wanted = 3;
if wanted > total_size -2 :
# 最多包含total_size - 2个
wanted = total_size - 2;
return wanted;
根据伪代码可以看出消息体携带数据量跟集群的节点数息息相关,更大 的集群每次消息通信的成本也就更高,因此对于Redis集群来说并不是大而全的集群更好。