기존의 누적 보상 기반 메타 강화학습 방법은 즉각적인 보상을 포기하는 탐험을 제대로 학습하지 못하는 문제점을 가지고 있으며, 이를 해결하기 위해 탐험 정책과 활용 정책을 분리하여 학습하는 First-Explore 프레임워크를 제안한다.


coremsg

탐험-후-활용-어려운-탐험-활용-딜레마를-해결하기-위한-메타-학습


탐험 후 활용: 어려운 탐험-활용 딜레마를 해결하기 위한 메타 학습



본 논문에서는 메타 학습을 통해 희소 보상 환경에서 에이전트의 학습 속도를 높일 수 있는 내재적 보상 함수를 학습하는 방법을 제시합니다.



희소 보상 환경을 위한 블랙박스 메타 학습 내재적 보상