Unsupervised Skill Discovery via Recurrent Skill Training论文笔记

本文介绍: 本文主要使用的是方案(2)，基于RND来计算给定状态对于一个skill的nov elty为多少（方案(2)相对方案(1)更容易实现，因为在之前的Nov elD方法中，就有使用过RND来计算nov elty）。ReST不是并行地训练所有的技能，而是以一种循环的方式一个接一个地训练技能，并附带一个内在的奖励，以阻止覆盖其他技能的频繁访问状态。以往的无监督技能发现方法主要使用的是并行训练，文章作者发现，当不同技能访问的状态重叠时，并行训练过程有时会阻碍探索，这导致状态覆盖率低，限制了学习技能的多样性。

通过在2D navig ations tasks上的实验发现，ReST方法相比于其他例如DIAYN等方法更容易突破环境中的bottlenec ks，能够在算法收敛后有更广泛的状态覆盖。
通过在Mujoco 环境中的实验发现，ReST方法能够发现dynamic的机器人运动技能，而例如DIAYN等方法倾向于发现static的技能。

这篇文章主要基于 re current+RND的方法解决了以往基于 mutual information的技能发现方法中的探索退化问题。通过为每个 skill分配一对RND网络，来计算给定的状态对于一个skill的新颖度。

作者提出ReST还有一些局限性：(1)样本训练效率更差，因为每个epoch只能训练一个skill。(2)intrinsic rewar d 需要基于其他所有skill的RND网络的预测误差，这导致计算复杂度很高（这就限制了N的大小，并且本文方法好像无法动态扩展N的大小）。(3)ReST方法无法扩展到continuous latent上。