이 논문은 오프라인 강화학습에서 발생하는 두 가지 불확실성, 즉 인식론적 불확실성과 우연적 불확실성을 동시에 다루는 새로운 알고리즘인 UDAC(Uncertainty-aware offline Distributional Actor-Critic)를 제안한다.
인식론적 불확실성은 모델 자체에 의해 발생하고, 우연적 불확실성은 환경에 의해 발생한다. 기존 연구는 이 두 가지 불확실성을 개별적으로 다루었지만, UDAC는 이를 동시에 다룬다.
UDAC는 확산 모델을 사용하여 행동 정책을 모델링함으로써 기존 방법의 한계를 극복한다. 이를 통해 행동 정책을 더 정확하게 표현할 수 있으며, 환경 불확실성에 더 강인하다.
UDAC는 행동 정책 모델링과 함께 교란 모델을 도입하여 위험 회피적인 정책을 학습한다. 이를 통해 누적 할인 보상의 전체 분포를 특성화할 수 있다.
실험 결과, UDAC는 위험 민감 오프라인 강화학습 벤치마크에서 기존 방법을 능가하는 성능을 보였다. 또한 위험 중립 오프라인 강화학습 환경에서도 기존 최신 방법과 견줄만한 성능을 보였다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Xiaocong Che... klokken arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17646.pdfDypere Spørsmål