Core Concepts
コスト予測器を活用することで、敵対的マルコフ決定過程においてサブリニアの楽観的後悔上限を達成できる。
Abstract
本論文では、敵対的マルコフ決定過程(AMDP)における オンライン学習の問題を扱っている。
AMDPは、環境が各エピソードで異なるコスト関数を選択できる一般化されたMDPモデルである。
従来のAMDP学習アプローチは保守的な後悔上限しか得られないが、本研究では、コスト予測器を活用することで楽観的な後悔上限を得ることを示している。
具体的には以下の貢献がある:
コスト予測器の精度に応じて後悔上限がスケールする楽観的な後悔上限を導出した。完全な予測の場合は定数の後悔上限が得られる。
コスト予測器を活用した新しいコスト推定器を提案し、その分散低減効果を示した。
提案手法の確率1-δでのサブリニアの楽観的後悔上限を示した。
未知の遷移確率の設定にも拡張し、同様の楽観的後悔上限を導出した。
以上の理論的結果に加え、数値実験でも提案手法の有効性を示している。
Stats
提案手法のフル情報設定での後悔上限は ˜O(√Σt∥ct - Mt∥2∞)
提案手法のバンディット設定での期待後悔上限は ˜O(L1/3(Σt∥ct - Mt∥2 + ∥ct - Mt∥1)2/3)
提案手法のバンディット設定での高確率後悔上限は ˜O(L1/4(maxl∥cl - Ml∥∞)1/4(Σt∥cl - Ml∥2∞ + ∥cl - Ml∥1)3/4 + √Σt∥cl - Ml∥2 + L√|X||A|T log(T|X||A|/δ))
Quotes
"コスト予測器を活用することで、敵対的マルコフ決定過程においてサブリニアの楽観的後悔上限を達成できる。"
"提案手法は、コスト予測器の精度に応じて後悔上限がスケールする楽観的な後悔上限を導出した。"
"提案手法の確率1-δでのサブリニアの楽観的後悔上限を示した。"