核心概念
본 논문은 무한한 관측 및 상태 공간을 가지는 부분 관측 마르코프 결정 과정에 대해 선형 함수 근사를 활용한 강화 학습 알고리즘을 제안하고, 이의 표본 효율성을 이론적으로 분석한다. 제안된 알고리즘은 관측 및 상태 공간의 크기와 무관하게 다항식 수준의 표본 복잡도를 달성한다.
摘要
본 논문은 부분 관측 마르코프 결정 과정(POMDP)에서의 강화 학습 문제를 다룬다. POMDP는 상태를 직접 관측할 수 없고 부분적인 관측만 가능한 환경을 모델링한다. 이는 강화 학습에 있어 통계적 및 계산적 어려움을 야기한다.
저자들은 POMDP의 선형 구조를 활용하여 새로운 강화 학습 알고리즘 OP-TENET을 제안한다. OP-TENET은 다음과 같은 핵심 구성요소를 통해 표본 효율성을 달성한다:
- 유한 메모리 벨만 연산자: 관측 이력에 의존하지 않는 재귀적 가치 함수 표현
- 적대적 적분 방정식을 통한 연산자 추정: 선형 구조에 맞춘 평활화된 판별기 활용
- 적대적 적분 방정식의 불확실성에 기반한 낙관적 탐험
저자들은 이론적 분석을 통해 OP-TENET이 관측 및 상태 공간의 크기와 무관하게 다항식 수준의 표본 복잡도로 최적 정책에 수렴함을 보인다. 이는 기존 연구 결과와 차별화되는 성과이다.
統計資料
상태 공간 차원 ds와 관측 공간 차원 do는 선형 구조를 결정하는 내재적 차원에 해당한다.
관측 연산자의 역연산자 Zθ
h의 연산자 노름 γ는 POMDP의 정보-이론적 난이도를 나타내는 척도이다.