核心概念
マルコフ決定過程において、定性的な監視タスクを満たしつつ、定量的な効率性を最大化する最適制御ポリシーを合成する。
要約
本論文では、マルコフ決定過程(MDP)における最適制御合成問題を扱う。具体的には、定性的な監視タスクを満たしつつ、定量的な効率性を最大化することを目的とする。
まず、通信可能なMDPの場合を考える。効率性最適化問題を解くために、状態分類とパーターベーション分析を組み合わせた手法を提案する。この手法では、まず効率性最適化問題を解いて基本ポリシーを得る。次に、この基本ポリシーを監視ポリシーでわずかに摂動することで、監視タスクを達成しつつ、効率性をϵ最適に保つ。
次に、一般のMDPの場合を考える。まず、MDPを受理最大終端成分(AMEC)に分解する。各AMECについて効率性最適化問題を解き、それらの情報を用いて長期平均報酬最大化問題を解く。得られた基本ポリシーに対して、各AMECで監視ポリシーによる摂動を行うことで、最終的な解を得る。
提案手法は、定性的な監視タスクと定量的な効率性最大化を同時に達成する点で既存研究を拡張している。また、パーターベーション分析の手法を効率性最大化問題に適用した点も新規性がある。
統計
最小コスト cmin = 0.5
最大効率性値 Jmax = 2.0
最小効率性値 Jmin = 1.0
遷移確率の最小値 pmin = 0.1
引用
"本研究では、定性的な監視タスクを満たしつつ、定量的な効率性を最大化する最適制御ポリシーの合成を目的とする。"
"提案手法は、状態分類とパーターベーション分析を組み合わせることで、効率的に解を得ることができる。"
"一般のMDPの場合には、AMECへの分解と長期平均報酬最大化問題の解を組み合わせることで、最終的な解を得る。"