深度强化学习实验室
官网:http://www.neurondance.com/
论坛:http://deeprl.neurondance.com/
问题汇总
蒙特卡洛、TD、动态规划的关系?
DQN的几个变种以及各自解决了那些问题?
深度强化学习中的DQN和A3C区别与联系?
策略梯度的推导过程?
策略梯度和actor-critic的关系与对比?
A3C和DDPG区别和共同点?
value-based和policy-based关系?
off-policy和on-policy的好与坏?
表格式到函数近似的理解?
Actor-Critic的优点?
Actor和Critic两者的区别?
advantage(优势函数)推导过程,如何计算?
DPG、DDPG、D3PG、D4PG之间的区别?
强化学习是什么?和有监督学习的异同?SL靠的是样本标签训练模型,RL依靠的是什么?
强化学习用来解决什么问题?
强化学习的损失函数是什么?
为什么最优值函数就等同最优策略
强化学习和动态规划的关系;
简述TD算法
蒙特卡洛和时间差分的对比:MC和TD分别是无偏估计吗,为什么?MC、TD谁的方差大,为什么?
简述Q-Learning,写出其Q(s,a)更新公式
简述值函数逼近的想法?
RL与监督学习和无监督学习的区别
RL不同于其它学习算法的原因?
Model-based和model-free的区别?
确定性策略和 随机性策略的区别与联系?
on-policy 和off-policy的区别与联系?
重要性采样的推导过程、作用?
Q-learning是off-policy的方法,为什么不使用重要性采样?
...........
160. 写出用第n步的值函数更新当前值函数的公式(1-step,2-step,n-step的意思)。当n的取值变大时,期望和方差分别变大、变小?
161. TD(λ)方法:当λ=0时实际上与哪种方法等价,λ=1呢?
162. 为什么Policy中输出的动作需要sample,而不是直接使用呢?
163. 是否用某种DRL算法玩过Torcs游戏?具体怎么解决?
164. 为什么连续动作环境下使用DDPG的表现还没有直接动作离散化后Q-learning表现好?
165. PPO算法中的损失函由那些组成?
166. 深度强化学习中奖励函数如何设置?如何Reward Shapping?
167. 你在强化学习模型调试中,有哪些调优技巧?
168. 简述PPO、DPPO算法?
169. 离散action和连续action在处理上有什么相似和不同的地方?
170. Inverse RL 能否解决奖励问题,如何解决的?
完整版链接:http://deeprl.neurondance.com/d/376-170
参考文献
[1]. https://zhuanlan.zhihu.com/p/52143798
[2]. https://mp.weixin.qq.com/s/R6eFiv3Iczli2nNCfOt6gg
[3]. https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md
[4]. https://my.oschina.net/u/4339481/blog/4498611
完整版请点击左下角“阅读原文“