加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

潮科技行业入门指南 | 深度学习理论与实战:提高篇(19)—— 强化学习简介(五)

发布时间:2019-03-26 00:54:12 所属栏目:教程 来源:36氪
导读:编者按:本文节选自《深度学习理论与实战:提高篇 》一书,原文链接http://fancyerii.github.io/2019/03/14/dl-book/ 。作者李理,环信人工智能研发中心vp,有十多年自然语言处理和人工智能研发经验,主持研发过多款智能硬件的问答和对话系统,负责环信中

“真实”的Value可以用采样的Gt来近似,因此我们需要让函数v来近似Gt,我们可以定义类似的loss函数为1/2||Gt(St)v(St,w)||^2,因此对上式求梯度就得到[Gtv^(St,w)]v^(St,w),然后使用类似梯度下降的方法乘以步长α就得到上面的更新公式。

当然,我们也可以使用TD来作为Value的近似,只需要把参数更新公式改为:

潮科技行业入门指南 | 深度学习理论与实战:提高篇(19)—— 强化学习简介(五)

注意:TD需要计算v(St)和v(St+1)的Value,这里用v(St和v(St+1来近似。

对于Q(s),输入是状态s,输出是value;对于Q(s,a),输入是状态s和行为a,输出是value。如果行为a的空间有限比如是m个值,那么也可以采用如下图右所示的方式,让函数的输入是s,输出m个值分别表示Q(s,a1),…,Q(s,am)。这样做的好处是一次可以计算出多个Q(s,a),比如在Q-Learning中,我们需要计算maxaQ(s,a),需要计算状态s下采取所有不同action中得分最高的,那么这种方法就可以一次算好。

潮科技行业入门指南 | 深度学习理论与实战:提高篇(19)—— 强化学习简介(五)

函数近似

函数近似使用的函数可以有不同的函数形式,从最简单的线性函数到复杂的神经网络。对于不同的函数和不同的算法组合,有不同程度的收敛性保证。下图列举了不同预测算法使用不同函数近似下的收敛性保证。

潮科技行业入门指南 | 深度学习理论与实战:提高篇(19)—— 强化学习简介(五)

预测算法的收敛性保证

下图列举了不同控制算法的收敛性保证。

潮科技行业入门指南 | 深度学习理论与实战:提高篇(19)—— 强化学习简介(五)

控制算法的收敛性保证

注意:没有收敛性保证不代表这个算法对于某个具体问题一定不收敛。比如Q-Learning和非线性的函数近似是不保证收敛的,但是在实际很多问题中,我们会使用非常复杂的神经网络来进行Q-Learning(Deep Q-Networks),这显然是非线性的,不能保证收敛,但是在很多问题中效果很好。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读