RISC-V笔记——显式同步

1. 前言

RISC-V的RVWMO模型主要包含了preserved program order、load value axiom、atomicity axiom、progress axiom和I/O Ordering。今天主要记录下preserved program order(保留程序顺序)中的Explicit Synchronization(显示同步)。

2. 显示同步

显示同步指的是：a操作在程序顺序中先于b操作，a和b都访问常规主存，不是I/O区域，如果存在以下任何一个条件，那么a操作和b操作在全局内存顺序中的顺序也不会变。

a和b之间有FENCE指令。
a拥有acquire语义。
b拥有release语义。
a和b都有RCsc语义。
a和b是配对的。

关于第一点，默认情况下，FENCE指令确保所有在程序顺序中位于FENCE之前的指令的内存访问（“前导集”）在全局内存顺序中比在程序顺序中位于FENCE之后的指令的内存访问（“后续集”）出现得更早。不过，为了性能上的考量，FENCE可以选择性进一步地限制前导集和后续集为较小的内存访问集。具体来说，FENCE有PR、PW、SR和SW bits，它们限制了前导集和后续集所包含的指令类型。如果PR为1，那么前导集包括load；如果PW为1，那么前导集包含store；如果SR为1，那么后续集包括load；如果SW为1，那么后续集包括store。

FENCE中PR、PW、SR和SW这4bit可以组成16种FENCE语义，但不是每一种组合都有用的。其中有7中组合具有空的前导集或后续集，因此是无操作的。另外FENCE还有一个额外的编码为FENCE.TSO，提供它主要是方便映射到“acquire+release”或RVTSO语义上。不过在这10(16-7+1)个选项中，只有下面6个在实践中常用：

FENCE RW,RW
FENCE.TSO
FENCE RW,W
ENCE R,RW
FENCE R,R
FENCE W,W

RISC-V手册建议程序员只使用这6种FENCE指令，其他组合的FENCE指令可能不生效，而且会造成意外的结果。

关于第二点，通常在关键代码的临界区开始时使用acquire操作，要求在程序顺序在acquire之后的load和store操作也要在全局内存顺序上在acquire之后。这样可以确保关键代码临界区内位于acquire操作之后的所有load和store可以获取最新的数据。Acquire操作排序可以通过两种方式来实现。

使用acquire语义的指令：它只针对同步变量本身强制排序
使用FENCE R,RW：它针对之前的所有load强制排序

如下代码1使用第一种方案，因为amoswap使用了aq，所以临界区的load和store保证出现于获取锁的amoswwap之后的全局内存顺序中。然而a1和a2指向不同的内存位置，临界区的load和store可能与它们乱序，也就是在全局内存顺序中，它们之间的顺序不是固定的。

如下代码2使用第二种方案，在这种情况下，尽管amoswap不强制使用aq进行排序，但FENCE仍然强制amoswap在全局内存顺序中出现的时间比临界区中的所有load和store都要早。但使用FENCE的一个副作用就是，FENCE还强制执行了额外的排序，它还要求程序开始时的a2不相关的load指令出现的时间要早于临界区的load和store。因此，FENCE命令比aq命令在排序上更强硬些，当然也更粗糙些。

关于第三点，Release排序和acquire排序的工作原理类似，只是排序的方向相反。Release语义要求在release操作程序顺序之前的所有load和store也要在全局内存顺序上先于release操作。这样可以确保在全局内存顺序中，临界区的内存访问出现在release释放锁的store之前。就像acquire语义一样，release语义可以通过两种方式来实现：

使用带release的指令
使用FENCE RW,W指令

例子就如同第二点中代码1和代码2。代码1在关键代码片段的末尾使用rl来确保顺序，其中a3和a4与rl之间没有固定关系，在全局内存顺序上没有固定顺序。代码2在关键片段的末尾使用FENCE RW,W来确保顺序。

关于第四点，如果单独使用RCpc语义，就不会强制store release到load acquire的顺序，这有助于移植在TSO或RCpc内存模型下编写的代码。为了确保store release到load acquire的顺序，代码必须使用RCsc的语义。

关于第五点，在全局内存顺序中，SC必须出现在与其配对的LR之后。由于固有的语法数据依赖，通常使用LR/SC来执行原子读-修改-写操作。但其实即使store的值在语法上不依赖于成对LR返回的值，这一点也适用。