이 논문은 상호작용 데이터 수집을 통한 분포 강건 강화 학습 문제를 다룹니다.
먼저, 일반적인 경우에 대해 근본적인 어려움을 보여줍니다. 구체적으로, 특정 클래스의 강건 마르코프 의사결정 과정(RMDP)에서는 상호작용 데이터 수집만으로는 근사 최적 정책을 학습하기 어렵다는 것을 증명합니다. 이는 학습 환경과 테스트 환경 간의 분포 지원 차이(support shift) 문제로 인한 것입니다.
이러한 어려움을 극복하기 위해, 저자들은 "최소값 소멸" 가정을 도입합니다. 이 가정 하에서, 저자들은 상호작용 데이터 수집만으로도 근사 최적 강건 정책을 학습할 수 있는 알고리즘 OPROVI-TV를 제안하고, 이에 대한 엄밀한 표본 복잡도 분석을 제공합니다. 이는 상호작용 데이터 수집을 통한 분포 강건 강화 학습이 가능함을 보여줍니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問