Khái niệm cốt lõi
本論文は、モデルフリーの安全制御アルゴリズムである暗黙的安全集合アルゴリズム(Implicit Safe Set Algorithm, ISSA)を提案する。ISSAは、ブラックボックスの動力学関数を利用して、強化学習エージェントの安全性を保証する。
Tóm tắt
本論文は、安全な強化学習のための新しいアプローチを提案している。主な内容は以下の通りである:
連続時間システムと離散時間システムの両方について、安全指標の設計ルールを提案した。これにより、状態に関わらず常に安全な制御入力が存在することを保証する。
サンプル効率の高い黒箱最適化アルゴリズム(AdamBA)を提案した。これにより、安全指標を最小化する安全な制御入力を効率的に見つけることができる。
提案したISSAアルゴリズムは、前進不変性と有限時間収束性を理論的に保証する。
Safety Gymベンチマークで評価した結果、ISSAは安全違反ゼロで95%±9%の累積報酬を得ることができた。
Thống kê
提案手法は、安全違反ゼロで95%±9%の累積報酬を得ることができた。
提案手法は、高次元システムにも適用可能で、並列計算により効率的に動作する。
Trích dẫn
"深層強化学習(DRL)は多くの連続制御タスクで優れた性能を示してきたが、安全性の保証が欠如しているのが大きな障壁である。"
"既存の安全制御手法は、明示的な動力学モデルを必要とするが、DRLの設定ではそのようなモデルにアクセスできない。"
"本論文では、ブラックボックスの動力学関数を利用して安全性を保証する新しい手法を提案する。"