潮科技行业入门指南 | 深度学习理论与实战:提高篇(19)—— 强化学习简介(五)
“真实”的Value可以用采样的Gt来近似,因此我们需要让函数v来近似Gt,我们可以定义类似的loss函数为1/2||Gt(St)v(St,w)||^2,因此对上式求梯度就得到[Gtv^(St,w)]v^(St,w),然后使用类似梯度下降的方法乘以步长α就得到上面的更新公式。 当然,我们也可以使用TD来作为Value的近似,只需要把参数更新公式改为: 注意:TD需要计算v(St)和v(St+1)的Value,这里用v(St和v(St+1来近似。 对于Q(s),输入是状态s,输出是value;对于Q(s,a),输入是状态s和行为a,输出是value。如果行为a的空间有限比如是m个值,那么也可以采用如下图右所示的方式,让函数的输入是s,输出m个值分别表示Q(s,a1),…,Q(s,am)。这样做的好处是一次可以计算出多个Q(s,a),比如在Q-Learning中,我们需要计算maxaQ(s,a),需要计算状态s下采取所有不同action中得分最高的,那么这种方法就可以一次算好。 函数近似 函数近似使用的函数可以有不同的函数形式,从最简单的线性函数到复杂的神经网络。对于不同的函数和不同的算法组合,有不同程度的收敛性保证。下图列举了不同预测算法使用不同函数近似下的收敛性保证。 预测算法的收敛性保证 下图列举了不同控制算法的收敛性保证。 控制算法的收敛性保证 注意:没有收敛性保证不代表这个算法对于某个具体问题一定不收敛。比如Q-Learning和非线性的函数近似是不保证收敛的,但是在实际很多问题中,我们会使用非常复杂的神经网络来进行Q-Learning(Deep Q-Networks),这显然是非线性的,不能保证收敛,但是在很多问题中效果很好。 (编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |