本文是伯克利深度强化学习课程CS294Q学习12部分的笔记,源代码部分见GitHub

Q迭代算法

在动作评价算法中,我们根据Q函数来决定策略的更新幅度和方向。根据定义Q函数表示当前状态下采取某一个动作后产生的累计奖励的期望,Q迭代算法就是直接拟合Q函数,在做决策中直接选择Q函数值最大的动作。

Continue reading