Core Concepts
본 연구는 강건한 조건부 가치 위험 기반 강화 학습 문제를 다룹니다. 고정된 불확실성 예산과 결정론적 불확실성을 모두 고려하여 최적의 강건한 정책을 도출합니다.
Abstract
이 논문은 강건한 마르코프 의사 결정 과정(RMDP) 내에서 조건부 가치 위험(CVaR) 기반 위험 민감 강화 학습의 강건성을 분석합니다.
먼저 고정된 불확실성 예산을 가정한 경우, CVaR의 일관성 및 이중 표현 정리를 활용하여 위험 민감 강화 학습 문제로 변환할 수 있음을 보였습니다. 이를 통해 기존 CVaR 강화 학습 알고리즘을 활용할 수 있습니다.
또한 실제 응용 분야에서 자주 관찰되는 결정론적 불확실성을 고려하는 경우, 새로운 일관성 있는 위험 척도인 NCVaR를 도입하고 이에 대한 분해 정리를 제시했습니다. 이를 바탕으로 NCVaR 최적화를 위한 가치 반복 알고리즘을 개발했습니다.
실험 결과를 통해 제안된 접근법이 다양한 불확실성 환경에서 강건한 위험 회피 정책을 생성할 수 있음을 확인했습니다.
Stats
상태 공간 X는 64 x 53 격자 세계이며, 에이전트는 (60, 50)에서 시작하여 (60, 2)에 도달하는 것이 목표입니다.
에이전트는 동, 남, 서, 북 방향으로 이동할 수 있으며, 인접 상태로 이동할 확률은 0.95, 다른 인접 상태로 이동할 확률은 0.05/3입니다.
장애물이 80개 존재하며, 장애물과 충돌하면 비용 40이 발생하고, 안전한 이동은 비용 1이 발생합니다.
Quotes
"실제 응용 분야에서 자주 관찰되는 결정론적 불확실성을 고려하는 경우, 새로운 일관성 있는 위험 척도인 NCVaR를 도입하고 이에 대한 분해 정리를 제시했습니다."
"실험 결과를 통해 제안된 접근법이 다양한 불확실성 환경에서 강건한 위험 회피 정책을 생성할 수 있음을 확인했습니다."