Conceitos Básicos
本論文では、安全重要なドメインにおける複数の制約を効果的に扱うための新しい手法「目的抑制」を提案する。目的抑制は、安全クリティカルな状況下でも制約を満たしつつ、タスク報酬の最大化を行うことができる。
Resumo
本論文では、安全重要なドメインにおける複数の制約を扱う強化学習の課題に取り組む。従来の制約付きMDPモデルでは、期待値ベースの制約しか扱えないが、本論文では、より強力な一様制約MDPモデルを提案する。
その上で、目的抑制と呼ばれる新しい手法を提案する。これは、タスク報酬最大化の目的と制約満足の目的を適応的に切り替えることで、制約を満たしつつタスク報酬も最大化するものである。目的抑制は既存の安全強化学習手法と組み合わせることで、制約違反を大幅に減らしつつタスク報酬も維持できることを示す。
具体的には、2つの多制約ドメイン、Mujoco-Antドメインと安全ベンチマークドメインで評価を行った。Mujoco-Antドメインでは、目的抑制によりコリジョン数を33%削減できた。安全ベンチマークドメインでは、制約違反を少なくとも半分以下に抑えられた。いずれのドメインでも、タスク報酬への大きな影響はなかった。
Estatísticas
コリジョン数を33%削減できた
安全ベンチマークドメインでは制約違反を少なくとも半分以下に抑えられた