본 논문은 두 개의 도메인에서 수집된 데이터셋을 활용하여 효율적으로 정책을 학습하는 오프라인 강화학습 문제를 다룹니다. 도메인 레이블이 있는 데이터를 활용하면 효율적인 정책 학습이 가능하지만, 실제로는 도메인 레이블을 부여하는 작업이 많은 자원이 필요하거나 불가능한 경우가 많습니다. 이를 해결하기 위해 저자들은 도메인 레이블이 없는 데이터를 활용할 수 있는 새로운 오프라인 강화학습 문제 설정인 Positive-Unlabeled Offline RL (PUORL)을 제안합니다. 또한 PUORL을 해결하기 위한 알고리즘을 개발하여, 도메인 레이블이 없는 데이터를 효과적으로 활용할 수 있음을 보여줍니다.
오프라인 데이터셋에서 정책 가이드 확산 모델을 학습하여 목표 정책에 부합하는 합성 경험을 생성함으로써, 오프라인 강화학습 성능을 향상시킬 수 있다.
오프라인 강화학습에서 발생하는 분포 변화 문제를 해결하기 위해 상태 공간을 앵커와 델타로 분해하여 구성적 보수주의를 달성하는 접근법을 제안한다.
오프라인 강화학습에서 발생하는 두 가지 불확실성(인식론적 불확실성과 우연적 불확실성)을 동시에 다루는 새로운 알고리즘을 제안한다. 이를 통해 위험 회피적인 정책을 학습하고 누적 할인 보상의 전체 분포를 특성화할 수 있다.
오프라인 강화학습 데이터셋을 오염시켜 강화학습 에이전트에 백도어를 삽입할 수 있는 방법을 제안한다.
기존 오프라인 강화학습 알고리즘들은 다양한 데이터 소스를 활용할 때 성능이 크게 저하되는 문제가 있다. 이를 해결하기 위해서는 단순히 네트워크 규모를 늘리는 것이 핵심적인 요인이다.
오프라인 데이터셋에서 다양한 행동 정책의 이점 값을 모델링하여 이점 인식 정책 제약을 명시적으로 구축함으로써 효과적인 에이전트 정책을 학습할 수 있다.
오프라인 메타 강화학습에서 행동 정책의 영향을 제거하고 태스크의 본질적인 특성을 학습하기 위해 적대적 데이터 증강 기법을 제안한다.