物理環境での訓練中に安全性を確保しながら、制約付きRLアルゴリズムの適用範囲を拡大することが可能である。
S-3PO アルゴリズムは、学習中の安全性を完全に保証しつつ、最適な安全なポリシーを学習することができる。これは、安全制御手法と安全な強化学習の長所を組み合わせた革新的なアプローチである。
深層カーネル学習を用いて未知の連続状態システムの安全性検証を行い、安全な動作を保証するシールドを構築するデータ駆動型手法を提案する。
医療における安全な意思決定のために、患者の履歴情報を考慮した新しいオフライン逆制約付き強化学習フレームワークを提案する。
安全性が重要な現実世界のタスクに強化学習を適用する際の課題である、安全性を維持しながら効率的に探索を行うための、ACTSAFEと呼ばれる新しいモデルベースの強化学習アルゴリズムを提案する。