Core Concepts
부분적으로 관찰 가능한 마르코프 의사결정 과정(POMDP)에서 상태 전이 행렬의 저차원 구조를 활용하여 표현 학습과 정책 최적화를 통합한 효율적인 강화학습 알고리즘 Embed to Control(ETC)을 제안한다.
Abstract
이 논문은 부분적으로 관찰 가능한 마르코프 의사결정 과정(POMDP)에서 효율적인 강화학습 알고리즘을 제안한다.
- POMDP에서는 관찰 및 상태 공간이 크기 때문에 표현 학습이 필수적이다.
- 이를 위해 논문에서는 상태 전이 행렬의 저차원 구조를 활용한다.
- 구체적으로 상태 전이 행렬을 저차원 특징으로 분해하고, 이를 통해 다단계 임베딩을 학습한다.
- 이를 통해 관찰 및 상태 공간의 크기에 무관하게 다항식 표본 복잡도로 최적 정책을 학습할 수 있다.
- 알고리즘은 두 단계로 구성된다:
- 각 단계에서 저차원 특징을 학습하여 상태 전이 행렬을 분해
- 다단계에 걸쳐 저차원 임베딩을 학습하여 다단계 예측 및 제어 수행
- 이를 통해 관찰 및 상태 공간이 무한대인 POMDP에서도 표본 효율적인 강화학습이 가능하다.
Stats
상태 전이 행렬 Ph(sh+1 | sh, ah)는 저차원 특징 ψh(sh+1)와 φh(sh, ah)의 내적으로 분해될 수 있다.
이때 특징 벡터의 차원 d는 상태 전이 행렬의 랭크를 나타낸다.
Quotes
"To this end, we identify a class of POMDPs with a low-rank structure on the state transition kernel (but not on the observation emission kernel), which allows prediction and control in a sample-efficient manner."
"By integrating the two levels of representation learning, that is, (i) feature learning at each step and (ii) embedding learning across multiple steps, we propose a sample-efficient algorithm, namely Embed to Control (ETC), for POMDPs with infinite observation and state spaces."