Core Concepts
本研究では、ラベル付きの軌跡データから非マルコフ安全制約を学習し、それを用いて安全な強化学習を行う手法を提案する。
Abstract
本研究の主な貢献は以下の通りです:
軌跡の部分的な履歴に対する安全性の寄与度を評価する安全モデルを設計しました。このモデルは、ラベル付きの安全データを用いて学習されます。
学習された安全モデルを活用し、報酬最大化と安全性の確保のトレードオフを最適化する強化学習アルゴリズム(SafeSAC-H)を導出しました。
安全制約の遵守度合いを動的に調整する手法を提案しました。最適化問題の双対問題を導出し、勾配ベースの手法によりラグランジュ乗数を自動的に調整します。
実験結果から、提案手法SafeSAC-Hは、未知の非マルコフ安全制約に対して高い遵守性能を示すことが確認できました。また、過去の経験を有効活用することで、効率的な学習が可能となっています。
Stats
強化学習エージェントの総報酬は、提案手法SafeSAC-Hが他の手法に比べて高い値を達成している。
提案手法SafeSAC-Hは、非マルコフ安全制約を90%以上遵守できている一方で、他の手法は制約を満たすことができていない。
Quotes
"本研究では、ラベル付きの軌跡データから非マルコフ安全制約を学習し、それを用いて安全な強化学習を行う手法を提案する。"
"提案手法SafeSAC-Hは、未知の非マルコフ安全制約に対して高い遵守性能を示すことが確認できた。"