Belangrijkste concepten
SUMO는 모델 기반 오프라인 강화 학습에서 모델의 불확실성을 보다 정확하게 추정하여 학습 성능을 향상시키는 새로운 검색 기반 방법입니다.
Samenvatting
SUMO: 모델 기반 오프라인 강화 학습을 위한 검색 기반 불확실성 추정
본 논문에서는 모델 기반 오프라인 강화 학습(Model-Based Offline Reinforcement Learning, 이하 MB-ORL)에서 모델의 불확실성을 추정하는 새로운 방법인 SUMO (Search-based Uncertainty estimation method for Model-based Offline RL)를 제안합니다. SUMO는 기존의 모델 앙상블 기반 방법보다 더 정확한 불확실성 추정을 제공하여 MB-ORL 알고리즘의 성능을 향상시킵니다.
오프라인 강화 학습(Offline Reinforcement Learning, 이하 ORL)은 사전에 수집된 고정된 데이터셋을 기반으로 최적의 정책을 학습하는 것을 목표로 합니다. 그러나 데이터셋은 전체 상태-행동 공간을 포괄할 수 없기 때문에 ORL 에이전트는 데이터셋 분포를 벗어난(Out-of-Distribution, 이하 OOD) 샘플에 대한 Q-값을 정확하게 추정할 수 없어 성능이 저하될 수 있습니다.
MB-ORL은 환경 다이내믹스 모델을 활용하여 데이터셋을 확장하고 일반화 능력을 향상시키는 방법입니다. 하지만 다이내믹스 모델이 모든 전이에 대해 정확하지 않을 수 있으므로 좋은 정책을 학습하기 위해서는 여전히 보수적인 접근이 필요합니다. 기존의 MB-ORL 방법들은 모델 앙상블 기반 기법을 사용하여 불확실성을 추정하고, 이를 통해 OOD 문제를 완화했습니다. 그러나 모델 앙상블 기반 불확실성 추정 방법은 모델이 잘못 학습될 수 있기 때문에 신뢰할 수 없는 경우가 있습니다.