Core Concepts
약하게 연결된 마르코프 의사결정 과정에서 최적 정책의 편향 함수 스팬 H와 상태-행동 공간 크기 SA를 이용하여 ε-최적 정책을 학습하는 데 필요한 샘플 복잡도를 eO(SAH/ε^2)로 제시하였다. 일반적인 마르코프 의사결정 과정의 경우, 새로운 과도 시간 매개변수 B를 도입하여 eO((B+H)SA/ε^2)의 샘플 복잡도를 달성하였다.
Abstract
이 논문은 평균 보상 마르코프 의사결정 과정(AMDP)에서 ε-최적 정책을 학습하는 문제의 샘플 복잡도를 연구한다.
약하게 연결된 AMDP의 경우:
- 최적 정책의 편향 함수 스팬 H를 이용하여 eO(SAH/ε^2)의 샘플 복잡도를 달성하였다. 이는 기존 연구 대비 최적 수준이다.
- 이를 위해 할인 마르코프 의사결정 과정(DMDP)의 샘플 복잡도를 개선하였다. 구체적으로 H ≤ 1/(1-γ)인 경우 eO(SAH/(1-γ)^2ε^2)의 복잡도를 달성하였다.
일반적인 AMDP의 경우:
- H만으로는 복잡도를 특징짓기 어려움을 보였다.
- 새로운 과도 시간 매개변수 B를 도입하여 eO((B+H)SA/ε^2)의 샘플 복잡도를 달성하였다.
- 이를 위해 일반 DMDP의 샘플 복잡도를 eO(SA(B+H)/(1-γ)^2ε^2)로 개선하였다.
전반적으로 이 연구는 평균 보상 마르코프 의사결정 과정의 샘플 복잡도 문제를 해결하고, 약하게 연결된 경우와 일반적인 경우를 모두 다루었다는 점에서 의의가 있다.
Stats
약하게 연결된 AMDP의 경우 eO(SAH/ε^2)의 샘플 복잡도를 달성한다.
일반 AMDP의 경우 eO((B+H)SA/ε^2)의 샘플 복잡도를 달성한다.
Quotes
"우리의 결과는 모든 매개변수 S, A, H, ε에 대해 최소-최대 최적(up to log factors)이며, 기존 연구보다 개선된 의존성을 보인다."
"일반 AMDP의 경우 H만으로는 복잡도를 특징짓기 어려우며, 새로운 과도 시간 매개변수 B가 필요하다."