Core Concepts
위험 민감 정책 경사 알고리즘은 위험 중립 정책 경사 알고리즘에 비해 더 적은 반복 횟수로 수렴할 수 있다.
Abstract
이 연구는 위험 민감 정책 경사 알고리즘의 반복 복잡도를 분석하였다. 주요 내용은 다음과 같다:
위험 민감 REINFORCE 알고리즘의 반복 복잡도를 분석하였다. 기대 매끄러움 가정 하에서 ϵ-근사 1차 정상점에 도달하는 반복 복잡도가 O(ϵ-2)임을 보였다.
위험 민감 REINFORCE와 위험 중립 REINFORCE의 반복 복잡도를 비교하였다. 적절한 위험 민감 매개변수 β를 선택하면 위험 민감 알고리즘이 위험 중립 알고리즘보다 더 적은 반복 횟수로 수렴할 수 있음을 이론적으로 입증하였다.
미니그리드 네비게이션 환경에서 실험을 수행하였다. 결과는 이론적 분석을 뒷받침하였으며, 위험 회피 경우가 위험 중립 경우에 비해 약 절반의 에피소드 만에 수렴하고 안정화되는 것을 보여주었다.
Stats
최대 보상 rmax = 1
할인 계수 γ = 0.99