Core Concepts
ロバストMDPの長期平均報酬最適化問題を確率ゲームに帰着することで、計算量的な性質や効率的なアルゴリズムを導出できる。
Abstract
本研究では、ポリトープ型のロバストMDPの長期平均報酬最適化問題を、確率ゲームに線形時間で帰着することを示した。この帰着により、以下の重要な結果を得ることができた:
ポリトープ型ロバストMDPの長期平均報酬最適化問題の閾値決定問題がNP∩CONPに属することを示した。また、ランダム化アルゴリズムによる指数関数的期待時間内での解法を提案した。
状態数と行動数が定数、状態遷移グラフのツリー幅が定数の場合、多項式時間アルゴリズムが存在することを示した。
確率ゲームの理論を活用して、ロバストポリトピック方策反復(RPPI)アルゴリズムを提案した。RPPIは、既存の値反復アルゴリズムに比べて大幅な計算時間の短縮を実現した。特に、既存アルゴリズムでは適用できない非ユニチェイン型のロバストMDPに対しても、RPPIは有効に機能することを示した。
Stats
ロバストMDPの長期平均報酬最適化問題の閾値決定問題はNP∩CONPに属する。
ランダム化アルゴリズムによる指数関数的期待時間内での解法が存在する。
状態数と行動数が定数、状態遷移グラフのツリー幅が定数の場合、多項式時間アルゴリズムが存在する。