本稿では、非線形ニューラルダイナミックシステムにおいて、全体的なパフォーマンスを最大化しながら、検証可能な安全な制御ポリシーを学習するための新しいアプローチを提案する。
移動障害物がある環境下でも、ロボットが衝突を回避しながら目標を達成できるような、安全性を重視した軌道生成手法を提案する。
本稿では、安全性の制約下におけるオフライン強化学習において、限られたデータ範囲でも任意の参照ポリシーを上回るポリシーをロバストに最適化できる新しいアルゴリズム、WSAC (Weighted Safe Actor-Critic) を提案する。
本稿では、外乱を受ける状況下でも安全性を確保しながらマルチコプターに軌跡追跡を学習させるための、安全強化学習フィルター(SRLF)を提案する。
安全制約と過大評価問題に対処するため、安全変調器と分布型クリティックを組み合わせた新しいモデルフリー安全強化学習手法であるSMACを提案する。
本稿では、外乱オブザーバーと残差モデル学習を組み合わせた、不確実性下での安全な強化学習のための新しいフレームワークを提案する。
Safety-Gymnasiumは、単一エージェント、マルチエージェント、およびビジョンベースのタスクを含む、安全重視型の強化学習アルゴリズムの評価と比較を容易にするために設計された、包括的な安全強化学習ベンチマークスイートです。