本文是伯克利深度强化学习课程CS294模仿学习部分1的笔记,源代码部分见GitHub

监督学习

机器学习中最为常见的方式就是监督学习,自然可以将这种方法应用到强化学习中,也就是将状态(或者观测)作为输入、动作作为输出、专家关于状态做出的动作作为标记进行机器学习。监督学习的方法听起来似乎不错,但是它存在着理论上的问题。

Continue reading