이 논문은 오프라인 강화학습에서 발생하는 두 가지 불확실성, 즉 인식론적 불확실성과 우연적 불확실성을 동시에 다루는 새로운 알고리즘인 UDAC(Uncertainty-aware offline Distributional Actor-Critic)를 제안한다.
인식론적 불확실성은 모델 자체에 의해 발생하고, 우연적 불확실성은 환경에 의해 발생한다. 기존 연구는 이 두 가지 불확실성을 개별적으로 다루었지만, UDAC는 이를 동시에 다룬다.
UDAC는 확산 모델을 사용하여 행동 정책을 모델링함으로써 기존 방법의 한계를 극복한다. 이를 통해 행동 정책을 더 정확하게 표현할 수 있으며, 환경 불확실성에 더 강인하다.
UDAC는 행동 정책 모델링과 함께 교란 모델을 도입하여 위험 회피적인 정책을 학습한다. 이를 통해 누적 할인 보상의 전체 분포를 특성화할 수 있다.
실험 결과, UDAC는 위험 민감 오프라인 강화학습 벤치마크에서 기존 방법을 능가하는 성능을 보였다. 또한 위험 중립 오프라인 강화학습 환경에서도 기존 최신 방법과 견줄만한 성능을 보였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania