본 논문은 오프라인 강화학습 문제에서 데이터가 두 개의 도메인에서 수집되는 경우를 다룹니다. 이 경우 데이터의 도메인 레이블을 알면 효율적인 정책 학습이 가능하지만, 실제로는 도메인 레이블을 부여하는 작업이 많은 자원이 필요하거나 불가능한 경우가 많습니다.
이를 해결하기 위해 저자들은 Positive-Unlabeled Offline RL (PUORL)이라는 새로운 오프라인 강화학습 문제 설정을 제안합니다. PUORL에서는 한 도메인의 데이터만 레이블이 있고 나머지는 도메인 레이블이 없는 상황을 다룹니다.
저자들은 PUORL을 해결하기 위한 알고리즘을 개발합니다. 이 알고리즘은 Positive-Unlabeled (PU) 학습을 활용하여 도메인 레이블이 없는 데이터의 도메인을 예측하고, 이를 활용하여 정책을 학습합니다. 실험 결과, 제안된 방법은 도메인 레이블이 매우 적은 상황에서도 도메인을 정확하게 식별하고 기존 방법보다 우수한 성능의 정책을 학습할 수 있음을 보여줍니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor