본 논문은 강화학습에서 효율적인 탐험이 여전히 어려운 문제라는 점에 주목한다. 특히 환경으로부터의 외부 보상이 희박하거나 전혀 없는 경우, 효율적인 탐험이 더욱 어려워진다. 이를 해결하기 위해 저자들은 변분 동역학 모델(VDM)을 제안한다.
VDM은 조건부 변분 추론을 기반으로 하여, 현재 상태, 행동, 잠재 변수를 조건으로 다음 상태를 예측하는 조건부 생성 프로세스로 환경 동역학을 모델링한다. 이를 통해 동역학의 다중 모드와 확률적 특성을 명시적으로 모델링할 수 있다.
VDM의 학습 목적은 상태-행동 전이의 조건부 로그 우도를 최대화하는 것이다. 이를 위해 저자들은 로그 우도의 상한을 도출하고, 이를 에이전트의 내재적 보상으로 사용한다. 이를 통해 에이전트는 외부 보상 없이도 자기 주도적으로 탐험할 수 있다.
저자들은 다양한 이미지 기반 시뮬레이션 과제와 실제 로봇 조작 과제에서 VDM의 성능을 평가한다. 실험 결과, VDM이 기존의 동역학 기반 자기 주도적 탐험 방법들을 뛰어넘는 성능을 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chenjia Bai,... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2010.08755.pdfDeeper Inquiries