潮科技行业入门指南 | 深度学习理论与实战：提高篇（19）—— 强化学习简介(五)

发布时间：2019-03-26 00:54:12 所属栏目：教程来源：36氪

导读：编者按：本文节选自《深度学习理论与实战：提高篇》一书，原文链接http://fancyerii.github.io/2019/03/14/dl-book/ 。作者李理，环信人工智能研发中心vp，有十多年自然语言处理和人工智能研发经验，主持研发过多款智能硬件的问答和对话系统，负责环信中

“真实”的Value可以用采样的Gt来近似，因此我们需要让函数v来近似Gt，我们可以定义类似的loss函数为1/2||Gt(St)v(St,w)||^2，因此对上式求梯度就得到[Gtv^(St,w)]v^(St,w)，然后使用类似梯度下降的方法乘以步长α就得到上面的更新公式。

当然，我们也可以使用TD来作为Value的近似，只需要把参数更新公式改为：

注意：TD需要计算v(St)和v(St+1)的Value，这里用v(St和v(St+1来近似。

对于Q(s)，输入是状态s，输出是value；对于Q(s,a)，输入是状态s和行为a，输出是value。如果行为a的空间有限比如是m个值，那么也可以采用如下图右所示的方式，让函数的输入是s，输出m个值分别表示Q(s,a1),…,Q(s,am)。这样做的好处是一次可以计算出多个Q(s,a)，比如在Q-Learning中，我们需要计算maxaQ(s,a)，需要计算状态s下采取所有不同action中得分最高的，那么这种方法就可以一次算好。

潮科技行业入门指南 | 深度学习理论与实战：提高篇（19）—— 强化学习简介(五)

函数近似

函数近似使用的函数可以有不同的函数形式，从最简单的线性函数到复杂的神经网络。对于不同的函数和不同的算法组合，有不同程度的收敛性保证。下图列举了不同预测算法使用不同函数近似下的收敛性保证。

潮科技行业入门指南 | 深度学习理论与实战：提高篇（19）—— 强化学习简介(五)

预测算法的收敛性保证

下图列举了不同控制算法的收敛性保证。

潮科技行业入门指南 | 深度学习理论与实战：提高篇（19）—— 强化学习简介(五)

控制算法的收敛性保证

注意：没有收敛性保证不代表这个算法对于某个具体问题一定不收敛。比如Q-Learning和非线性的函数近似是不保证收敛的，但是在实际很多问题中，我们会使用非常复杂的神经网络来进行Q-Learning(Deep Q-Networks)，这显然是非线性的，不能保证收敛，但是在很多问题中效果很好。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

原版Ghost xp iso镜像	萝卜家园ghostxpsp3安
xp 激活系统方法	联想笔记本电脑xp系统