Keskeiset käsitteet
深層カーネル学習を用いて未知の連続状態システムの安全性検証を行い、安全な動作を保証するシールドを構築するデータ駆動型手法を提案する。
Tiivistelmä
安全な自律性のための学習ベースのシールド手法
本論文は、深層強化学習(DRL)によって制御される未知の連続状態システムの安全性を保証するための、データ駆動型のシールド構築手法を提案する研究論文である。
未知のダイナミクスを持つ連続状態システムにおいて、深層強化学習(DRL)などのブラックボックスコントローラを用いつつも安全性を保証するシールドを、データから自動生成する手法を開発すること。
深層カーネル学習(DKL)によるシステムモデリング: システムの安全性に関連する状態の遷移をモデル化するため、データセットを用いてDKLによりシステムダイナミクスを学習する。DKLは、ガウス過程回帰を拡張したものであり、ベースカーネルへの入力をニューラルネットワークで事前学習することで、より正確な平均予測と事後分散予測、および高速な抽象化を実現する。
区間マルコフ決定過程(IMDP)による抽象化: 学習したDKLモデルを用いて、システムの有限状態抽象化をIMDPとして生成する。IMDPは、状態空間の離散化誤差と学習の不確実性を考慮した遷移確率を持つ。
安全線形時相論理(safe LTL)による安全性仕様の定義: システムが満たすべき安全要件を、safe LTLを用いて形式的に記述する。safe LTLは、システムが違反してはならない安全要件を表現できる形式言語である。
安全性保証付きシールドの生成: IMDP抽象化上で、safe LTL仕様を満たさないパスを体系的に排除することで、安全性を保証する最大許容ポリシー集合をシールドとして生成する。具体的には、IMDPとsafe LTL仕様の補集合を合成して到達可能性問題に変換し、安全でない行動を削除することで実現する。