ut⋅∇θlnπ(at∣st;θnow).
注:在算法最后一步中,随机梯度前面乘以系数
γ
t
−
1
gamma^{t-1}
γt−1 。为什么需要这个系数呢?原因是这样的:前面 REINFORCE 的推导是简化的,而非严谨的数学推导;按照我们简化的推导,不应该乘以系数
γ
t
−
1
gamma^{t-1}
γt−1。当进行严格的数学推导的时候,得出的 REINFORCE 算法需要系数
γ
t
−
1
gamma^{t-1}
γt−1。
注:REINFORCE 属于同策略 (on-policy), 要求行为策略 (behavior policy) 与目标策略(target policy) 相同,两者都必须是策略网络
π
(
a
∣
s
;
θ
n
o
w
)
pi(a|s;theta_mathrm{now})
π(a∣s;θnow), 其中
θ
n
o
w
theta_mathrm{now}
θnow 是策略网络当前的参数。所以经验回放不适用于 REINFORCE。
后记
截至2024年1月27日12点01分,学习完 policy based RL的视频与书上的内容,并且进行了整理。
原文地址:https://blog.csdn.net/shizheng_Li/article/details/135880942
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_64121.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!