Core Concepts
カウント可能無限状態空間のマルコフ決定過程において、未知パラメータを学習し、最適ポリシーを開発するためのアルゴリズムを提案する。
Abstract
現実世界の多くの応用はキューイングモデルで表現され、有限な状態空間ではなくカウント可能無限状態空間が必要。
ベイズ視点から未知パラメータを扱い、安定性と効率的なポリシー更新手法を提案。
アルゴリズムはThompsonサンプリングと動的エピソードを組み合わせており、ベイジアン後悔の上限値を確立。
キューイングモデルへの応用例も示し、提案手法が近似最適制御アルゴリズムの開発に有効であることを示す。
Stats
˜O(dhdp|A|T)時間軸に対するベイジアン後悔の上限値
Quotes
"Models of many real-life applications have a countably infinite state-space."
"To optimally control the unknown MDP, we propose an algorithm based on Thompson sampling with dynamically-sized episodes."