1.在解释马尔可夫决策问题之前,我们首先应该知道马尔可夫过程(Markov Process),简单理解就是未来的行为只取决于现在的状态,而与之前的状态无关。设是t时刻的状态,那么当满足条件:
时,我们说状态具有马尔可夫性质。
我们讨论一个简单问题时,状态的数目是有限的,不妨设为n个。从而给出状态转移矩阵的定义:
,这个矩阵中的元素aij的值代表从从状态i到状态j的概率。
2.基于马尔可夫过程,我们引入奖励(reward)和折扣因子,问题定义为一个tuple,在状态s时,我们可以收获的奖励为.此处表示可到达的下一个状态的奖励之和的作用为了能够使得问题能够收敛。从而我们可以知道在某一个状态可以得到的奖励
3.在此之前,我们都没有考虑在某一个状态时如何采取行动,显而易见,在特定的一个状态,可以采取的动作是多样的且有限的,因此我们引入一个新的元素,活动集A,从而引出马尔科夫决策问题tuple.
此时,我们有表示在状态s采取动作a到达状态s'的概率,表示在状态s下采用动作a能够获得的奖励。
我们给定某一个策略,从而表示在状态s下采用动作a的概率。我们给出状态值函数:
动作值函数:
基于上面的两个式子,我们给出贝尔曼方程:
同样的,我们可以得到
在这个图中,我们简单的往前看两步,可以看到,,
将后者带入前式可以得到.此处的V,r都是列向量
则是状态转移矩阵。我们将这个式子移项可得 。
通过以上的方法,我们可以计算出每个状态的值函数,我们的任务是在问题中找到某一条路径,使得最后收获的值函数收获最大
参考文献:
《深入浅出强化学习-原理入门》,郭宪,方勇纯编著,电子工业出版社,2018.1