本文介绍: 策略学习:policy network, policy gradient,REINFORCE

utθlnπ(atst;θnow).

注:在算法最后一步中,随机梯度前面乘以系数

γ

t

1

gamma^{t-1}

γt1 。为什么需要这个系数呢?原因是这样的:前面 REINFORCE 的推导是简化的,而非严谨的数学推导;按照我们简化的推导,不应该乘以系数

γ

t

1

gamma^{t-1}

γt1。当进行严格的数学推导的时候,得出的 REINFORCE 算法需要系数

γ

t

1

gamma^{t-1}

γt1

注:REINFORCE 属于同策略 (on-policy), 要求行为策略 (behavior policy) 与目标策略(target policy) 相同,两者都必须是策略网络

π

(

a

s

;

θ

n

o

w

)

pi(a|s;theta_mathrm{now})

π(as;θnow), 其中

θ

n

o

w

theta_mathrm{now}

θnow 是策略网络当前的参数。所以经验回放不适用于 REINFORCE。

后记

截至2024年1月27日12点01分,学习完 policy based RL的视频与书上的内容,并且进行了整理。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注