이 논문은 오프라인 메타 강화학습(OMRL) 환경에서 태스크 표현 학습 과정에서 발생하는 행동 정책과의 잘못된 상관관계 문제를 해결하기 위한 방법을 제안한다.
기존 OMRL 방법들은 다양한 행동 정책으로 수집된 데이터를 활용하여 태스크 표현을 학습하지만, 현실적으로 이는 어려운 경우가 많다. 이에 따라 한정된 행동 정책으로 수집된 데이터에서 태스크 표현을 학습할 때 행동 정책과의 잘못된 상관관계가 발생한다.
이를 해결하기 위해 저자들은 적대적 데이터 증강 기법을 제안한다. 이 기법은 기존 데이터 증강과 달리 행동 정책의 영향을 제거하는 것을 목표로 한다. 구체적으로 학습된 동역학 모델과 적대적 정책을 활용하여 태스크 표현 학습기가 행동 정책의 영향을 받지 않도록 하는 데이터를 생성한다.
실험 결과, 제안 방법인 ReDA는 기존 OMRL 방법들에 비해 태스크 식별 및 일반화 성능이 크게 향상되었음을 보여준다. 특히 행동 정책이 다른 상황에서도 우수한 성능을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問