Konsep Inti
강건 마르코프 의사결정 과정에서 관찰된 전이 데이터를 활용하여 주어진 평가 정책의 최선/최악의 가치를 효율적이고 강건하게 추정하는 방법을 제안한다.
Abstrak
이 논문은 강건 마르코프 의사결정 과정(MDP)에서 오프-정책 평가 문제를 다룬다. 기존 연구와 달리, 이 논문에서는 전이 관측치로부터 주어진 평가 정책의 최선/최악의 가치 경계를 추정하는 방법을 제안한다.
주요 내용은 다음과 같다:
- 전이 확률 커널을 일정 범위 내에서 변화시킬 수 있는 강건 MDP 모델을 제안하고, 이에 대한 최선/최악의 Q-함수와 가치 함수를 특성화한다.
- 강건 fitted-Q 반복 알고리즘을 통해 Q-함수와 관련 임계값을 추정하는 방법을 제안한다.
- 추정된 Q-함수와 임계값을 활용하여 최선/최악의 방문 분포를 추정하는 강건 최소-최대 알고리즘을 제안한다.
- 이를 바탕으로 효율적이고 강건한 오프-정책 평가 추정량을 개발한다. 이 추정량은 준모수적 효율성을 달성하며, 느린 속도로 추정된 보조 함수에도 강건하다.
- 모의실험을 통해 제안된 방법의 우수성을 입증한다.
Statistik
강건 MDP에서 최선/최악의 전이 확률 커널은 다음과 같이 표현된다:
U±(s′ | s, a)/P(s′ | s, a) = Λ−1(s, a) + (1 −Λ−1(s, a))τ(s, a)−1I[±(V±(s′) −β±
τ(s,a)(s, a)) ≥ 0]
최선/최악의 방문 분포 w±(s)는 다음 모멘트 방정식을 만족한다:
E[w±(s)f(s)] = (1 −γ)Ed1[f(s1)] + γE[w±(s)ω(s, a)Es′∼U±(s,a)[f(s′)]]
Kutipan
"강건 MDPs [28, 46]는 알 수 없는 환경을 허용하는 모델로, 알 수 없는 환경 변화에 대한 자연스러운 모델이 된다."
"우리의 접근법은 정책 기반 MSM을 일반화하여 전이 확률 커널 기반 MSM으로 확장한다."
"우리의 추정량은 준모수적 효율성을 달성하며, 느린 속도로 추정된 보조 함수에도 강건하다."