核心概念
MDPsにおいて、Energy-MeanPayoff目的を確実に達成するための有限メモリ戦略が存在する。
摘要
本論文では、Markov Decision Processes (MDPs)における Energy-MeanPayoff目的について研究している。Energy-MeanPayoff目的とは、エネルギー消費を一定以上に保ちつつ、複数の報酬次元で平均報酬が正となることを要求する目的である。
主な結果は以下の通り:
- Energy-MeanPayoff目的を確実に達成する戦略は、有限メモリ戦略で存在する。
- 確実に勝つ戦略は、指数オーダーの記憶容量を持つ決定性戦略で実現できる。
- 指数オーダーの記憶容量は、確率的戦略でも必要となる。
この結果は、Energy-Parityなどの関連する目的では無限メモリが必要となるのとは対照的である。
戦略の構造は以下のようになる:
- 2つのフェーズ(Gain、Bailout)を交互に実行する
- Gainフェーズではエネルギーを消費しつつ平均報酬を上げる
- Bailoutフェーズではエネルギーを回復する
- エネルギー値は有限メモリで管理し、上限値を超えた分は無視する
- 上限値を適切に設定することで、Bailoutが十分稀に発生し、平均報酬目的を満たせる
このような戦略構造により、有限メモリで確実に勝つことができる。
統計資料
エネルギー上限値bを指数オーダーに設定すれば、以下の条件を満たせる:
Gainフェーズの期待報酬: v1_i > 0 (次元i)
Bailoutフェーズの期待報酬: v2_i (次元i)
v1_i + v2_i > 0 (次元i)