本論文では、Markov連鎖における期待停止時間を考慮した最適な総報酬の最大化問題を扱う。従来の研究では、停止時間が固定された場合の最適化問題が研究されてきたが、本論文では停止時間が確率分布に従う場合を考える。
具体的には以下の結果を示す:
Markov連鎖における期待停止時間を考慮した最適な総報酬の最大化問題は、Positivity問題と相互に還元可能であり、Positivity問題の決定可能性を示すことが重要な課題となる。
上記の正確な最適値問題は困難であるが、任意の精度で近似解を求めることができる。Markov連鎖の場合は指数時間で、MDPの場合は指数空間で近似解を求めることができる。
MDPの場合、無限メモリ戦略が必要となる。
本論文の結果は、Markov連鎖における期待停止時間を考慮した最適化問題の難しさを明らかにし、近似解法の提案を通じて実用的な解決策を示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問