本文是伯克利深度强化学习课程CS294策略梯度部分12的笔记,源代码部分见GitHub

策略梯度

对于强化学习问题来说,目标函数就是使得状态动作序列累计奖励最大化

Continue reading