Core Concepts
部分観測マルコフ決定過程において、低ランク遷移構造を利用することで、状態と観測の高次元空間に依存せずに、効率的な表現学習と最適制御が可能となる。
Abstract
本論文では、部分観測マルコフ決定過程(POMDP)における効率的な表現学習と最適制御のアプローチを提案している。
まず、POMDPの状態遷移が低ランク構造を持つクラスを定義する。この低ランク構造により、状態と観測の高次元空間に依存せずに、効率的な表現学習と最適制御が可能となる。
具体的には、以下の2つのレベルでの表現学習を統合したアルゴリズム「Embed to Control (ETC)」を提案する:
各ステップで状態を低次元特徴量で表現する
複数ステップにわたる履歴を低次元埋め込みで表現する
ETCでは、この2つの表現学習を統合的に行いながら、方策の最適化も同時に行う。低ランクPOMDPにおいて、ETCは最適性ギャップに対して多項式の標本複雑度を達成する。
Stats
状態遷移確率は、状態と行動の低次元特徴量の内積で表現される。
状態遷移確率 = ψ*(s_t+1)⊤φ*(s_t, a_t)
Quotes
"部分観測マルコフ決定過程(POMDP)において、低ランク遷移構造を利用することで、状態と観測の高次元空間に依存せずに、効率的な表現学習と最適制御が可能となる。"
"ETCでは、状態を低次元特徴量で表現する学習と、複数ステップにわたる履歴を低次元埋め込みで表現する学習を統合的に行いながら、方策の最適化も同時に行う。"