sin(x)

Page 2 of 10

深度强化学习:基于模型强化学习

本文是伯克利深度强化学习课程CS294基于模型强化学习12部分的笔记,源代码部分见GitHub

动作规划

在之前的各类算法中,对于状态施加动作后的状态变化过程都是一无所知的,但是如果知道状态的变化函数,那么个给出初始状态,就能给出整个最优的动作轨迹,这就是规划问题。

Continue reading

深度强化学习:深度Q网络

本文是伯克利深度强化学习课程CS294Q学习12部分的笔记,源代码部分见GitHub

Q迭代算法

在动作评价算法中,我们根据Q函数来决定策略的更新幅度和方向。根据定义Q函数表示当前状态下采取某一个动作后产生的累计奖励的期望,Q迭代算法就是直接拟合Q函数,在做决策中直接选择Q函数值最大的动作。

Continue reading

深度强化学习:策略梯度

本文是伯克利深度强化学习课程CS294策略梯度部分12的笔记,源代码部分见GitHub

策略梯度

对于强化学习问题来说,目标函数就是使得状态动作序列累计奖励最大化

Continue reading

深度强化学习:模仿学习

本文是伯克利深度强化学习课程CS294模仿学习部分1的笔记,源代码部分见GitHub

监督学习

机器学习中最为常见的方式就是监督学习,自然可以将这种方法应用到强化学习中,也就是将状态(或者观测)作为输入、动作作为输出、专家关于状态做出的动作作为标记进行机器学习。监督学习的方法听起来似乎不错,但是它存在着理论上的问题。

Continue reading

机器学习:梯度提升

人们很少会把Gradient Boosting翻译成中文名词,为了保持版面的整齐,还是使用了中文术语。目前,梯度提升是广泛使用的统计学习方法,其思想来源于数值优化中的最速下降法。梯度提升和最速下降法的主要区别就是:最速下降法中的梯度是基于参数空间的,然而梯度提升中的梯度基于假设空间。

函数估计

在机器学习任务中,在训练数据集上,我们通过最小化损失函数来选择假设空间中的假设

对于回归问题,常用的损失函数包括平方损失和绝对值损失;对于分类问题,常用的损失函数为负对数似然损失

通常我们将假设限制在某一类函数中,其中。在本文中,通过相加将多个单个假设集成

Continue reading

« Older posts Newer posts »

Copyright © 2019 sin(x)

Theme by Anders Noren, host by Coding PagesUp ↑