Bootstrap

【重磅总结】170道强化学习面试题目汇总,助力实验室RLer冲刺求职季!

深度强化学习实验室

官网:http://www.neurondance.com/

论坛http://deeprl.neurondance.com/

问题汇总

  1. 蒙特卡洛、TD、动态规划的关系?

  2. DQN的几个变种以及各自解决了那些问题?

  3. 深度强化学习中的DQN和A3C区别与联系?

  4. 策略梯度的推导过程?

  5. 策略梯度和actor-critic的关系与对比?

  6. A3C和DDPG区别和共同点?

  7. value-based和policy-based关系?

  8. off-policy和on-policy的好与坏?

  9. 表格式到函数近似的理解?

  10. Actor-Critic的优点?

  11. Actor和Critic两者的区别?

  12. advantage(优势函数)推导过程,如何计算?

  13. DPG、DDPG、D3PG、D4PG之间的区别?

  14. 强化学习是什么?和有监督学习的异同?SL靠的是样本标签训练模型,RL依靠的是什么?

  15. 强化学习用来解决什么问题?

  16. 强化学习的损失函数是什么?

  17. 为什么最优值函数就等同最优策略

  18. 强化学习和动态规划的关系;

  19. 简述TD算法

  20. 蒙特卡洛和时间差分的对比:MC和TD分别是无偏估计吗,为什么?MC、TD谁的方差大,为什么?

  21. 简述Q-Learning,写出其Q(s,a)更新公式

  22. 简述值函数逼近的想法?

  23. RL与监督学习和无监督学习的区别

  24. RL不同于其它学习算法的原因?

  25. Model-based和model-free的区别?

  26. 确定性策略和 随机性策略的区别与联系?

  27. on-policy 和off-policy的区别与联系?

  28. 重要性采样的推导过程、作用?

  29. Q-learning是off-policy的方法,为什么不使用重要性采样?

    ...........

  160. 写出用第n步的值函数更新当前值函数的公式(1-step,2-step,n-step的意思)。当n的取值变大时,期望和方差分别变大、变小?

   161. TD(λ)方法:当λ=0时实际上与哪种方法等价,λ=1呢?

   162. 为什么Policy中输出的动作需要sample,而不是直接使用呢?

   163. 是否用某种DRL算法玩过Torcs游戏?具体怎么解决?  

  164. 为什么连续动作环境下使用DDPG的表现还没有直接动作离散化后Q-learning表现好?

  165. PPO算法中的损失函由那些组成?

  166. 深度强化学习中奖励函数如何设置?如何Reward Shapping?

  167. 你在强化学习模型调试中,有哪些调优技巧?

  168. 简述PPO、DPPO算法?

   169. 离散action和连续action在处理上有什么相似和不同的地方?

   170. Inverse RL 能否解决奖励问题,如何解决的?

完整版链接:http://deeprl.neurondance.com/d/376-170

参考文献

[1]. https://zhuanlan.zhihu.com/p/52143798
[2]. https://mp.weixin.qq.com/s/R6eFiv3Iczli2nNCfOt6gg
[3]. https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md
[4]. https://my.oschina.net/u/4339481/blog/4498611

完整版请点击左下角“阅读原文

;