本論文では、マルコフ決定過程(MDP)における最適制御合成問題を扱う。具体的には、定性的な監視タスクを満たしつつ、定量的な効率性を最大化することを目的とする。
まず、通信可能なMDPの場合を考える。効率性最適化問題を解くために、状態分類とパーターベーション分析を組み合わせた手法を提案する。この手法では、まず効率性最適化問題を解いて基本ポリシーを得る。次に、この基本ポリシーを監視ポリシーでわずかに摂動することで、監視タスクを達成しつつ、効率性をϵ最適に保つ。
次に、一般のMDPの場合を考える。まず、MDPを受理最大終端成分(AMEC)に分解する。各AMECについて効率性最適化問題を解き、それらの情報を用いて長期平均報酬最大化問題を解く。得られた基本ポリシーに対して、各AMECで監視ポリシーによる摂動を行うことで、最終的な解を得る。
提案手法は、定性的な監視タスクと定量的な効率性最大化を同時に達成する点で既存研究を拡張している。また、パーターベーション分析の手法を効率性最大化問題に適用した点も新規性がある。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yu Chen,Xuan... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18632.pdfDeeper Inquiries