本論文では、制約付き正規化流れ方策(CNFP)を提案している。CNFPは、強化学習問題の安全性と解釈可能性を向上させるための新しい方策モデルである。
CNFPは、ドメイン知識を活用して制約を満たす行動を生成することができる。具体的には、制約関数に基づいて行動空間を制約に沿った部分空間に変換する逆関数を解析的に構築する。この変換は正規化流れとして表現され、各変換ステップが制約の順守を保証する。
実験では、2D点移動タスクを用いて提案手法の有効性を示している。CNFPは、学習初期から最適な行動を生成し、かつ制約を完全に順守することができる。一方、報酬ペナルティ法やラグランジュ法のベースラインでは、学習初期に制約違反が多く発生し、最適な行動に収束するまでに時間がかかる。また、CNFPは解釈可能性も備えており、各変換ステップを可視化することで、エージェントの振る舞いを説明できる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問