Bootstrap

【统计强化学习】表格类型方法

本系列文章主要参考UIUC姜楠老师开设的cs542

本章主要介绍无模型下的表格类型方法,包括确定性等价(Certainty-equivalence)方法、以及常见的 Q-learning、SARSA 等基于值的方法。由于需要先估计环境模型再进行决策,所以本章还会基于确定性等价方法,分析估计过程中产生的误差。

表格类型方法

首先介绍确定性等价方法。该方法为 model-based 方法,

首先需要从现有数据中估计 MDP 模型,然后在假设模型为真的情况下进行策略优化。具体地,给定轨迹的数据集 D = { ( s 1 , a 1 , r 1 , s 2 , . . . , s H + 1 ) } D=\{(s_1,a_1,r_1,s_2,...,s_{H+1})\} D={ (s1,a1,r1,s2,...,sH+1)},并将该轨迹拆分为 H H H 个四元组: ( s 1 , a 1 , r 1 , s 2 ) (s_1,a_1,r_1,s_2) (s1,a1,r1,s2) ( s 2 , a 2 , r 2 , s 3 ) (s_2,a_2,r_2,s_3) (s2,a2,r2,s3)、…、 ( s H , a H , r H , s H + 1 ) (s_H,a_H,r_H,s_{H+1}) (sH,aH,rH,sH+1)。对于任意 s ∈ S s\in\mathcal{S} sS a ∈ A a\in\mathcal{A} aA,令 D s , a D_{s,a} Ds,a 为所有四元组中第一个元素为 s s s 且第二个元素为 a a a 的四元组子集。令 e s ′ \bold{e}_{s'} es ∣ S ∣ |\mathcal{S}| S 维的向量,且第 s ′ s' s 个位置的元素为 1,其余的元素为 0。此时,估计的状态转移函数为:
P ^ ( s , a ) = 1 ∣ D s , a ∣ ∑ ( r , s ′ ) ∈ D s , a e s ′ \widehat{P}(s,a) = \frac{1}{|D_{s,a}|} \sum_{(r,s') \in D_{s,a}} \bold{e}_{s'} P (s,a)=Ds,a1(r,s)Ds,aes

估计的奖励函数为:
R ^ ( s , a ) = 1 ∣ D s , a ∣ ∑ ( r , s ′ ) ∈ D s , a r \widehat{R}(s,a) = \frac{1}{|D_{s,a}|} \sum_{(r,s') \in D_{s,a}}r R (s,a)=Ds,a1(r,s)Ds,ar

另外,为了能够较好地评估状态转移函数和奖励函数,数据集中对任意状态动作对至少要包含一次,相当于确定性等价方法需要将环境模型保存下来,因此空间复杂度为 O ( ∣ S ∣ 2 ∣ A ∣ ) O(|\mathcal{S}|^2|\mathcal{A}|) O(S2A)。另外,确定性等价方法需要先采集好数据之后才能开始训练。

与之相反,基于值的表格类型方法,比如 Q-learning 和 SARSA 的方法只需要保存 Q 函数表格,因此空间复杂度为 O ( ∣ S ∣ ∣ A ∣ ) O(|\mathcal{S}||\mathcal{A}|) O(SA);并且基于值的方法能够以在线的方式执行。另外,下面还将说明确定性分析方法的样本效率更高(但随着缓存池等技术的使用,model-based 和 value-based 方法之间区别就不是那么明显了)。

确定性等价方法分析

下面从弱到强分析确定性等价 RL 方法的三个结论。为方便起见,假设每个状态动作对都采集固定次数。

首先,对确定性等价进行朴素分析,提出第一个界限。直观上,当采集到的样本数量 n n n 足够大,那么就能评估出足够真实的环境模型 P ^ ≈ P \widehat{P} \approx P P P 以及 R ^ ≈ R \widehat{R} \approx R R R。回顾上一章的霍夫丁不等式,存在至少 1 − δ 1-\delta 1δ 的概率,使得:
max ⁡ s , a , s ′ ∣ P ^ ( s ′ ∣ s , a ) − P ( s ′ ∣ s , a ) ∣ ≤ 1 2 n log ⁡ 4 ∣ S × A × S ∣ δ max ⁡ s , a ∣ R ^ ( s , a ) − R ( s , a ) ∣ ≤ R max 1 2 n log ⁡ 4 ∣ S × A ∣ δ \max_{s,a,s'}|\widehat{P}(s'|s,a)-P(s'|s,a)| \le \sqrt{\frac{1}{2n} \log \frac{4|\mathcal{S} \times \mathcal{A} \times \mathcal{S}|}{\delta}} \\ \max_{s,a} |\widehat{R}(s,a)-R(s,a)| \le R_{\text{max}} \sqrt{\frac{1}{2n} \log \frac{4|\mathcal{S} \times \mathcal{A}|}{\delta}} s,a,smaxP (ss,a)P(ss,a)2n1logδ4S×A×S s,amaxR (s,a)R(s,a)Rmax2n1logδ4S×A

在朴素分析阶段,为了简化问题,假设各个状态转移和各个状态下获得的奖励都是独立的互不影响的,因此可以将评估错误的概率 δ \delta δ 平均分到评估状态转移函数和评估奖励函数两个事件中。对于状态转移函数,将 δ 2 \frac{\delta}{2} 2δ 平均分到评估各个三元组 ( s , a , s ′ ) (s,a,s') (s,a,s) 事件中;而对于奖励函数,将 δ 2 \frac{\delta}{2} 2δ 平均分到评估各个状态动作对 ( s , a ) (s,a) (s,a) 事件中。此时可将上面的状态转移函数误差界限转换为:
max ⁡ s , a ∥ P ^ ( s , a ) − P ( s , a ) ∥ 1 ≤ max ⁡ s , a ∣ S ∣ ⋅ ∥ P ^ ( s , a ) − P ( s , a ) ∥ ∞ ≤ ∣ S ∣ ⋅ 1 2 n log ⁡ 4 ∣ S × A × S ∣ δ \begin{aligned} \\ \max_{s,a} \parallel \widehat{P}(s,a) - P(s,a) \parallel_1 &\le \max_{s,a} |\mathcal{S}| \cdot \parallel \widehat{P}(s,a) - P(s,a) \parallel_\infty \\ &\le |\mathcal{S}| \cdot \sqrt{\frac{1}{2n} \log \frac{4|\mathcal{S} \times \mathcal{A} \times \mathcal{S}|}{\delta}} \end{aligned} s,amaxP (s,a)P(s,a)1s,amaxSP (s,a)P(s,a)S2n1logδ4S×A×S

其中,有 ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ ≤ ∑ i = 1 n max ⁡ j ∣ x j ∣ = n ∥ x ∥ ∞ \parallel x \parallel_1 = \sum_{i=1}^n |x_i| \le \sum_{i=1}^n \max_j|x_j| = n \parallel x \parallel_\infty x1=i=1nxii=1nmaxjxj=nx。注意 max ⁡ s , a , s ′ ∣ P ^ ( s ′ ∣ s , a ) − P ( s ′ ∣ s , a ) ∣ \max_{s,a,s'}|\widehat{P}(s'|s,a)-P(s'|s,a)| maxs,a,sP (ss,a)P(ss,a) 是指对每个三元组 ( s , a , s ′ ) (s,a,s') (s,a,s) 的转移概率之间的差都有这个误差界限,而 max ⁡ s , a ∥ P ^ ( s , a ) − P ( s , a ) ∥ 1 \max_{s,a} \parallel \widehat{P}(s,a) - P(s,a) \parallel_1 maxs,aP (s,a)P(s,a)1 是指对于每个 ( s , a ) (s,a) (s,a) 产生的下一个状态(共 ∣ S ∣ |\mathcal{S}| S 个下一个状态)的转移分布之间的差都有这个误差界限。

为了求出根据评估的环境模型得到的最优策略 π M ^ ∗ \pi_{\widehat{M}}^* πM 与真实最优策略之间的界限。下面先介绍 Simulation 引理:如果 max ⁡ s , a ∣ R ^ ( s , a ) − R ( s , a ) ∣ ≤ ϵ R \max_{s,a}|\widehat{R}(s,a)-R(s,a)|\le\epsilon_R maxs,aR (s,a)R(s,a)ϵR max ⁡ s , a ∥ P ^ ( s , a ) − P ( s , a ) ∥ 1 ≤ ϵ P \max_{s,a}\parallel\widehat{P}(s,a)-P(s,a)\parallel_1\le\epsilon_P maxs,aP (s,a)P(s,a)1ϵP,则对于任意策略 π \pi π,有:
∥ V M ^ π − V M π ∥ ∞ ≤ ϵ R 1 − γ + γ ϵ P V max 2 ( 1 − γ ) \parallel V_{\widehat{M}}^\pi - V_M^\pi \parallel_\infty \le \frac{\epsilon_R}{1-\gamma} + \frac{\gamma\epsilon_PV_{\text{max}}}{2(1-\gamma)} VM πVMπ

;