기존의 누적 보상 기반 메타 강화학습 방법은 즉각적인 보상을 포기하는 탐험을 제대로 학습하지 못하는 문제점을 가지고 있으며, 이를 해결하기 위해 탐험 정책과 활용 정책을 분리하여 학습하는 First-Explore 프레임워크를 제안한다.
본 논문에서는 메타 학습을 통해 희소 보상 환경에서 에이전트의 학습 속도를 높일 수 있는 내재적 보상 함수를 학습하는 방법을 제시합니다.