1 没有教师信号,也没有label,只有reward,其实reward 就相当于label。
2 反馈有延时,不是能立即返回
3 相当于输入数据是序列数据
4 agent 执行的动作会影响之后的数据
强化学习的关键要素有:环境,reward,action和state,要解决的问题是针对一个具体问题得到一个最优的policy,使得在该策略下获得reward 最大,所谓的policy 其实就是一系列action,也就是sequential data。
ref:https://blog.csdn.net/trillion_power/article/details/70992333