经典的Paxos算法

1.1 问题与需求：

我们讨论的对象是分布式系统中的一个变量。一致性问题是：要求分布在不同机器上的多个进程，对于这个变量，无论有多少提案，最多只能从众多提案中选出一个值。也就是说，无论有多少故障，例如宕机、消息延迟、乱序、重复甚至丢失(但消息不能被篡改)，绝对不能有两个或者两个以上的值被选择；比如在ceph中，对于同一个epoch，绝对不能出现两个不同的osdmap，否则monitor.a认为这部分OSD挂了，而monitor.b认为那部分OSD挂了，不同客户端可能拿到不同的osdmap。另外，还要求只要有足够多的进程无故障，最终总会有一个值被选中。换言之，算法不能无限运行下去而选不出一个值。

总结来说，分布式一致性问题有两个需求：
a: 安全需求(safety requirement)，它又包括两个方面：

非平凡性（Nontriviality）：只有提案的值才能被学习；
一致性（Consistency）：最多只有一个值能被学习；学习的意思相当于：学习者(learner)"接受"被选中的值，被学习相当于这个被选中的值在系统中生效。后文会介绍学习者(leaner)角色。

b: 前进需求（progress requirement）：只要有足够多的提案者(acceptor)，一个提案者(proposer)和一个学习者(leaner)无故障，最终总能选出一个值，不会无限运行而选不出值。后文会介绍决策者(acceptor)、提案者(proposer)角色；

1.2 角色：

提案者(proposer): 发出提案。我们讨论的对象是一个变量，提案者提议对这个变量设置某个它认为合理的值。
协调者(coordinator): 是提案者的代理；在下文中，很少有提案者的事，因为提案者被协调者代理。协调者和决策者直接交互，比如发出参与请求、提案等。
决策者(acceptor)：负责选出一个值。决策者需要决定参不参与某一轮提案，若参与了接不接受这一轮提案。后文会详细描述它是如何工作的。
学习者(leaner): 若决策者决定接受一个值，会向学习者发送这个决定；在给定的一轮中，若学习者接受到了来自"大多数决策者"的接受决定，那么这个值就被学习了(当然也被选择了)。

需要注意的是，一个agent可以承担多个角色。论文不介绍如何实现，不过典型的场景是，一个angent充当所有角色，而只有一个活动的coordinator。

1.3 前提条件：非拜占庭模型(non-Byzantine model)

agent以任意速度运行，可以故障、停止、重启；但是不可以做不正确的动作；
agent之间的消息可以任意慢、可以重复、乱序、丢失；但不可以被破坏；

1.4 保证safty requirement --> 基本的Paxos算法

基本的Poxos算法中，只保证safty requirment，1.5中会扩展它来进一步保证progress requirment。另外，基本的Paxos分多轮进行，暂时不考虑它的终结，而假定它可以一直运行下去，但是无论运行多少轮，最终还是最多一个值被选择学习。每轮有一个唯一的编号，多轮不必按顺序进行；某一轮可以中断或者跳过；多轮可以并发。

下面直接先看算法，然后解释(证明)它是如何满足safty requirement的。

1.4.1 算法描述：

acceptor a存储的持久信息：

rnd[a]: acceptor a 参与的最大的round编号；0表示还未参与任何一轮。
vrnd[a]: acceptor a 接受的最大的提案round编号；0表示还未接受过任何提案。
vval[a]: acceptor a 接受的最大的提案值；若还未接受过任何提案，则无意义;

接受round r中的提案，一定参与了round r，所以 vrnd[a] <= rnd[a]；反过来参与了round r，不一定接受了round r中的提案。也就是说，若参与了round r并接受了其提案，vrnd[a]=rnd[a]；若参与了rund r但还未接受其提案，vrnd[a] < rnd[a]；

coordinator c存储的持久信息：

crnd[c]: coordinator c 参与的最大的round编号；
cval[c]: 在round crnd[c]中，coordinator c预选的值；这个值将会发给acceptor，请求acceptor接受。若还没有预选值，则为none。

记号：

{i,x}：表示一个提案，round编号为i，值为x;
1a消息：在步骤1a中，coordinator向acceptor发的参与请求消息；
1b消息：在步骤1b中，acceptor向acceptor发的回复消息；
2a消息：在步骤2a中，coordinator向acceptor发的参与请求消息；
大多数集：任意一个acceptor集合，只要满足集合size大于acceptor总数的一半；

Round i 开始：proposer向coordinator c发出一个提案，{i,x}；

1a: [coordinator c接收到proposer发来的提案]
if crnd[c] < i then
crnd[c] = i; //更新自己参与的最大的round编号；

cval[c] = none; //coordinator c在round i中还没有预选值。注意，不是把x设为预选值；

向所有acceptor发送参与请求ParticipateRequest(内容是:i)，请求他们参与；

else
丢弃提案{i,x};

1b: [acceptor a接受到c发出的1a消息(内容是:i)]
if rnd[a] < i then

rnd[a] = i; //更新自己参与的最大的round编号；所以，以后不再参与

//编号小于等于i的提案；

向coordinator c回复消息(内容是:i, vrnd[a], vval[a]) //告诉c：我保证不再参与编号小于等于i的提案；我曾经接

//受的编号最大的提案为{vrnd[a], vval[a]}；

else
丢弃； //不参与编号小于等于rnd[a]的提案；

2a: [coordinator c接收到1b消息(内容是: i, vrnd[a], vval[a])]

if crnd[c]==i AND //此消息是对c发出的1a消息的回复，而c还没有开始更高轮

//的提案(也就是说，c正在等1a消息的回复)

cval[c]==none AND //c在round i还没有预选值(就是说，这是本轮第一次经历2a)
c 已经接受到大多数acceptor发来的1b消息 //可以预选值了
then
预选一个值v //如何选？见下文
cval[c] = v; //设置预选值。
向这些acceptor发送接受请求AcceptRequest(内容是：i,v)，请求他们在round i接受预选值v；

2b: [acceptor a接受到2a消息(内容是:i,v)]
if i >= rnd[a] AND //没有开始更高轮的提案
vrnd[a] != i //在round i，还没有接受一个值(换言之，还没有为round i投票)
then
vrnd[a] = i; //接受提案{i,v}
vval[a] = v;
向所有learner发送消息，宣布它在round i中决定接受v; 若leaner接受到大多数acceptor发来的接受决定，他就学习到了v。
else //i<rnd[a] OR vrnd[a]==i, 已经开始了更高的round OR 在round i已经接受了一个值
丢弃请求

为了加深理解，我们看看那些能满足这个2b中的if条件的情况：

i>rnd[a]>vrnd[a]：在rnd[a]没有接受值(因为rnd[a]!=vrnd[a])，i是开始的更高轮。i!=rnd[a]说明没有接收到1a消息而直接接收到了2a消息。这种情况不可能发生，因为在步骤2a中，c只向回复了1a消息的acceptor发送2a消息；
i>rnd[a]=vrnd[a]：在rnd[a]接受了一个值(因为rnd[a]==vrnd[a])，i是开始的更高轮。由于i!=rnd[a]，此情况也不可能，理由同上。
i=rnd[a]>vrnd[a]：在rnd[a]没有接受值(因为rnd[a]!=vrnd[a])，i是正在进行的一轮。也就是说，已经接收到过1a消息，并向c发出了回复，这是c发出的2a消息。

再看看被选择和被学习的关系：

当大多数acceptor接受了v时，v在round i就被选择了。它们发给learner的消息可以丢失，但这只影响学习过程，而不影响v在round i被选择这一事实，因为vrnd[a]=i， vval[a]=v被持久化了；
只有被选择(大多数acceptor接受v并向learner发送接受决定)，才能被学习(learner接受到大多数acceptor发的接受决定);

1.4.2 如何保证safty requirement？

定义：一个值被选择，当且仅当它在某一轮中被选择；
定义：一个值在某一轮中被选择，当且仅当大多数acceptor接受（accept）了这个值；

回顾一下safty requirment，它包括两个方面

非平凡性（Nontriviality）：只有提案的值才能被学习；
一致性（Consistency）：最多只有一个值能被学习；

上面的算法中，只有提案的值才可能被接受(见2b)，只有接受的值才可能被选择(见2b)，只有被选择的值才能被学习(见2b)，所以非平凡性已经被保证；
由于只有被选择的值才能被学习，所以一致性的核心是：只有一个值被选择，即"大多数决策者"决定接受这个值。

下面分两步，先证明在同一round只可能有一个值被选择(1.4.3)；然后给出一种方法，步骤2a中如何选择v(1.4.4)，并证明这个方法能够保证在多个round之间只可能有一个值被选择(1.4.5)。

1.4.3 证明同一round中最多只可能一个值被选择

在给定的一个round中(例如i)，只有一个coordinator能够成功接到大多数acceptor的参与回复。因为对于给定的i，一个acceptor在1b中只能发出一个参与回复(后续的请求会被丢弃，因为rnd[a]=i，不满足rnd[a]<i)。
一个coordinator在得到大多数acceptor的参与回复后，只能预选一个值发送给acceptor；
acceptor只能接受coordinator发来的值；
所以，最多只有一个值被接受；
只有被大多数acceptor接受的才被选择，所以最多只有一个值被选择。

1.4.4 如何保证多轮中也最多只有一个值被选择？

在算法的2a步骤中，coordinator c需要选择一个值，而它选择的这个值，应该能够保证：在多个round之间，只可能有一个值被选择。
我们先提出一个假设需求
CP：对于任意round i和round j (j<i)，如果一个值v在round j中被选择或者可能被选择，那么acceptor在round i中只可能接受v。
由于一个值只有被接受才能被选择，所以CP蕴含：
对于任意round i和round j (j<i)，如果一个值v在round j中被选择或者可能被选择，那么在round i中，只可能选择v。
也就是说， CP可以保证在多个round之间，只可能有一个值被选择。已知同一round只能有一个值被选择。所以，只要我们能够满足CP，就能够满足一致性(Consistency)了。

CP的等价命题：
假如有acceptor在round i中接受了值v，那么在任意round j (j<i)，被选择或可能被选择的只能是v。

只有2a中选出的值才能被acceptor接受，所以，我们只需一个方法，满足：
CP(i,v): 若这个方法在2a中选出了值v，那么在任意round j(j<i)，被选择或可能被选择的只能是v。(注意，在round j没有选择值也满足条件)

总之： 只要我们的方法能够保证CP(i,v)，就能保证CP的等价命题，就能保证CP，进而保证一致性。

在给出这个方法，并证明它能够满足CP(i,v)之前，我们通过观察得出几个结论：

结论1：假如在round j中，值v被选择或者可能被选择，那么一定存在一个大多数集Q，满足：Q里的任意acceptor a，rnd[a]<=j,或者在round j中，a已经接受了v。
有三种情况：

rnd[a]<j: a还没参与round j；
rnd[a]=j但在round j还没有接受任何值: 已经参与了round j，但在round j还没接受任何值。在j之前的round中，可能接受了值v，也可能接受了v以外的值；
在round j中已经接受了v

注意，后面只是一个必要条件，而不是充分条件。换言之，在round j中v被选择可以推出以上三种情况，但以上三种情况不能推出在round j中v被选择。它的逆否命题更容易理解：
逆否命题：假如存在一个大多数集Q，满足：Q里的任意acceptor a， rnd[a]>j并且在round j中没有接受v(可能接受了v以外的值，也可能没有接受任何值)，那么v在round j中不可能被选择。
证明：若a还没有接受任何值，它也不可能接受任何值了(因为rnd[a]>j，见算法步骤2b)。所以，对于Q里的任意acceptor a，要么a接受了v以外的值，要么不接受任何值。除Q外，即使所有acceptor在round j都接受了v，也不可能构成大多数。所以v在round j不可能被选择。

结论2(和结论1的逆否命题类似)：假如存在一个大多数集Q，满足：Q里的任意acceptor a，rnd[a]>j，并且在round j中没有接受任何值，那么没有一个值可能在round j中被选择。
证明：除Q之外，即使所有acceptor都接受了某个值w，也构不成大多数，故w不可能被选择；

结论3：假如存在一个大多数集Q，满足：Q里的任意acceptor a，rnd[a]>j，并且，a在round j接受了v或者没有接受任何值，在round j被选择或可能被选择的只能是v。
证明：除Q之外，即使所有的acceptor都接受了v以外的某值w，也构不成大多数，故w不可能被选择；

现在直接给出这个方法，后面再证明这个方法能够满足CP(i,v):
见算法步骤2a，这时coordinator c已经接收到来大多数的acceptor的1b消息(假设这个大多数集为Q，size为N)，这些消息是：
i, vrnd[a1], vval[a1]
i, vrnd[a2], vval[a2]
...
i, vrnd[aN], vval[aN]

假设vrnd[aX]是vrnd[a1],vrnd[a2],...,vrnd[aN]中最大的，对应的值为vval[aX](若有多个最大的，他们对应的值也是同一个，因为在同一round，只有一个coordinator能够得到大多数1b消息，而它又只请求接受一个值)。设k=vrnd[aX]。那么有两种情况：

k=0: 选择proposer提案的x；
k>0: 选择vval[aX]；

1.4.5 证明这个选择方法能够满足CP(i,v).

k=0时：对于Q里的任意acceptor a，a在round i之前没有接受过任何值。形式化的说，对于任意round j (j<j)，rnd[a]>j(因为rnd[a]>=i)，并且在round j没有接受任何值。根据结论2，在任意round j(j<i)，没有值在round j被选择。这时，coordinator c可以任意选择一个值v，都满足CP(i,v)。所以，c选择proposer提案的值x。

k>0时：因为acceptor在1b中，只有i>rnd[a]时才回复，并且rnd[a]>=vrnd[a]。所以对于任意1b消息(i, vrnd[a], vval[a])，都有i>vrnd[a]。所以k<i。我们要证明CP(i,v): 既然2a中选出了值vval[aX](记为v)，那么在任意round j(j<i)，被选择或可能被选择的只能是v=vval[aX]。对j，有三种情况：

k<j<i: 对于Q里的任意acceptor a，a在回复1b消息时，肯定还没有为round j接受一个值(因为若接受了，vrnd[a]=j，在coordinator c接收到的那些1b消息中，至少有vrnd[aR]=j，这和k是最大值矛盾)。而这时rnd[a]>j(因为a在步骤1a中已经回复了1b消息，故rnd[a]>=i，故rnd[a]>j)。根据结论2，在round j中没有选择任何值。所以满足C(i,v)。说白了，round j到现在还没有选择一个值，而大多数rnd[a]已经大于j，不可能再为round j接受一个值，所以，round j不可能选择一个值了。
j=k: 对于Q里的任意acceptor a，rnd[a]>j(因为a在步骤1a中已经回复了1b消息，故rnd[a]>=i，i>k=j，故rnd[a]>j)，并且，a在round j中要么接受了v=vval[aX](若vrnd[a]=k)，要么没有接受任何值(若rnd[a]<j)，根据结论3，在round j被选择或可能被选择的只能是v=vval[aX]。
j<k: 如果w(w!=v)在round j被选择：那么在round k中，步骤2a中一定会预选w，所以round k不可能选择v，矛盾；也可以通过归纳法证明：因为在round k中接受了值v，那么在round j (j<j)中，被选择或可能被选择的只能是v。也就是说，在众多小于k的1b消息中，有可能有多个值，但是没有一个被选择或可能被选择。

至此，我们已经完成了paxos算法safty requirement的证明，后续的文章中会介绍如何满足progress requirement。

经典的Paxos算法

悦读