이 논문은 중장기 데이터 기반 강화학습에서 발생할 수 있는 중장기 보상의 heavy-tailed 분포 문제를 해결하기 위한 새로운 방법론을 제안한다.
오프라인 정책 평가(OPE) 문제에 대해, 중앙값 기반 강건 추정 기법(ROAM)을 제안한다. ROAM은 데이터를 여러 부분으로 나누어 독립적인 Q함수 추정치를 구한 뒤, 이들의 중앙값을 취함으로써 heavy-tailed 보상에 강건한 정책 가치 추정치를 얻는다.
오프라인 정책 최적화(OPO) 문제에 대해, 중앙값 기반 강건 추정 기법을 활용한 ROOM 프레임워크를 제안한다. ROOM은 여러 개의 독립적인 최적 Q함수 추정치를 구한 뒤, 이들의 중앙값 혹은 하위 quantile을 취함으로써 heavy-tailed 보상과 데이터 부족 문제에 동시에 강건한 정책을 학습한다.
이론적 분석을 통해 제안 방법론의 강건성을 수학적으로 입증하였다. 특히 보상의 (1+α)차 모멘트만 유한하면 되는 매우 약한 가정 하에서도 기존 방법론 대비 우수한 성능을 보임을 보였다.
다양한 벤치마크 환경에서의 실험을 통해, 제안 방법론이 heavy-tailed 보상 환경에서 기존 방법론 대비 월등한 성능을 보임을 확인하였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究