本論文では、Markov Decision Processes (MDPs)における Energy-MeanPayoff目的について研究している。Energy-MeanPayoff目的とは、エネルギー消費を一定以上に保ちつつ、複数の報酬次元で平均報酬が正となることを要求する目的である。
主な結果は以下の通り:
この結果は、Energy-Parityなどの関連する目的では無限メモリが必要となるのとは対照的である。
戦略の構造は以下のようになる:
このような戦略構造により、有限メモリで確実に勝つことができる。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Mohan Dantam... о arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14522.pdfГлибші Запити