도메인 레이블이 없는 데이터를 활용한 오프라인 강화학습 알고리즘
본 논문은 두 개의 도메인에서 수집된 데이터셋을 활용하여 효율적으로 정책을 학습하는 오프라인 강화학습 문제를 다룹니다. 도메인 레이블이 있는 데이터를 활용하면 효율적인 정책 학습이 가능하지만, 실제로는 도메인 레이블을 부여하는 작업이 많은 자원이 필요하거나 불가능한 경우가 많습니다. 이를 해결하기 위해 저자들은 도메인 레이블이 없는 데이터를 활용할 수 있는 새로운 오프라인 강화학습 문제 설정인 Positive-Unlabeled Offline RL (PUORL)을 제안합니다. 또한 PUORL을 해결하기 위한 알고리즘을 개발하여, 도메인 레이블이 없는 데이터를 효과적으로 활용할 수 있음을 보여줍니다.