本文介绍: 策略学习:policy network, policy gradient,REINFORCE

utθlnπ(atst;θnow).

注:在算法最后一步中,随机梯度前面乘以系数

γ

t

1

gamma^{t-1}

γt1 。为什么需要这个系数呢?原因是这样的:前面 REINFORCE 的推导是简化的,而非严谨的数学推导;按照我们简化的推导,不应该乘以系数

γ

t

1

gamma^{t-1}

γt1。当进行严格的数学推导的时候,得出的 REINFORCE 算法需要系数

γ

t

1

gamma^{t-1}

γt1

注:REINFORCE 属于同策略 (on-policy), 要求行为策略 (behavior policy) 与目标策略(target policy) 相同,两者都必须是策略网络

π

(

a

s

;

θ

n

o

w

)

pi(a|s;theta_mathrm{now})

π(as;θnow), 其中

θ

n

o

w

theta_mathrm{now}

θnow 是策略网络当前的参数。所以经验回放不适用于 REINFORCE。

后记

截至2024年1月27日12点01分,学习完 policy based RL的视频与书上的内容,并且进行了整理。

原文地址:https://blog.csdn.net/shizheng_Li/article/details/135880942

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_64121.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注