Bootstrap

q-learning精讲

Q-learning

Q-learning是一种用于机器学习的强化学习技术。 Q-learning的目标是学习一种策略,告诉Agent在什么情况下要采取什么行动。 它不需要环境模型,可以处理随机转换和奖励的问题,而无需进行调整。

对于任何有限马尔可夫决策过程(FMDP),Q学习找到一种最优的策略,即从当前状态开始,它在任何和所有后续步骤中最大化总奖励的预期值。在给定无限探索时间和部分随机策略的情况下,Q学习可以为任何给定的 FMDP 确定最佳动作选择策略。“Q”命名函数返回用于提供强化的奖励,并且可以说代表在给定状态下采取的动作的“质量”。

  • Reinforcement learning
    强化学习涉及一个代理,一组状态 S,以及一组动作A. 通过在A中执行动作,Agent程序从一个状态转换到另一个状态。 在特定状态下执行动作为Agent提供奖励(数字分数)。

Agent的目标是最大化其总(未来)奖励。 它通过将未来状态可获得的最大奖励添加到实现其当前状态的奖励来实现这一点,从而通过潜在的未来奖励有效地影响当前行动。 该潜在奖励是从当前状态开始的所有未来步骤的奖励的预期值的加权和。
例如,考虑登上火车的过程,其中奖励是通过登机总时间的负值来衡量的(或者,登上火车的费用等于登机时间)。 一种策略是一旦打开就进入火车门,最大限度地缩短了自己的初始等待时间。 然而,如果火车很拥挤,那么在你进入大门的最初动作之后你将会进入缓慢状态,因为当你试图登机时,人们正在打你离开火车。 总的登机时间或成本是:
0秒等待时间+ 15秒战斗时间
第二天,

;