Core Concepts
후속 특징을 활용하여 환경 역학과 보상을 분리함으로써 작업 특정 미세 조정 과정을 개선할 수 있다. 그러나 기존 접근법은 탐험과 활용을 통합한 내재적 보상으로 인해 국소 최적에 빠지는 문제가 있다. 이 연구는 탐험과 활용을 분리하는 새로운 비감독 사전 학습 모델을 제안한다.
Abstract
이 연구는 후속 특징(Successor Features, SFs)을 활용한 비감독 사전 학습에서 탐험과 활용을 분리하는 새로운 모델을 제안한다. 기존 접근법은 탐험과 활용을 통합한 내재적 보상을 사용하여 국소 최적에 빠지는 문제가 있었다.
제안 모델인 Non-Monolithic unsupervised Pre-training with Successor features (NMPS)는 탐험과 활용을 별도의 에이전트로 분리한다. 탐험 에이전트는 다양한 기술을 학습하고, 활용 에이전트는 작업 특정 미세 조정에 초점을 맞춘다. 이를 통해 SFs의 빠른 적응 능력과 탐험 및 작업 무관 기능을 모두 활용할 수 있다.
NMPS는 다음과 같은 3가지 핵심 기여를 한다:
SFs 기반 비감독 사전 학습에서 탐험과 활용을 분리하는 새로운 방법론 제안
분리된 에이전트의 최적화된 학습 방법 제안
별도의 탐험 에이전트를 활용하여 활용 에이전트의 판별기 유연성과 일반화 향상
실험 결과, NMPS는 기존 APS 모델 대비 우수한 성능을 보였다. 특히 Walker, Jaco Arm, Quadruped 도메인에서 NMPS의 다양한 변형이 APS를 능가하는 것으로 나타났다.
Stats
탐험 에이전트와 활용 에이전트의 엔트로피 차이: H(πexplor) > H(πexploit)
활용 에이전트의 가치 함수 추정 오차 차이: QExplor
φExplor
Trained ≠ QExplor
φExplor
NonTrained
Quotes
"Unsupervised pre-training has been on the lookout for the virtue of a value function representation referred to as successor features (SFs), which decouples the dynamics of the environment from the rewards."
"However, existing approaches struggle with local optima due to the unified intrinsic reward of exploration and exploitation without considering the linear regression problem and the discriminator supporting a small skill space."