Core Concepts
本論文では、自動運転タスクにおける安全性を確保するために、長期的および短期的な制約に基づく新しい安全強化学習手法を提案する。この手法は、短期的な状態安全性を保証し、長期的な全体的な安全性を確保することで、従来の方法の課題を解決する。
Abstract
本論文では、自動運転における安全性の確保を目的として、長期的および短期的な制約に基づく新しい安全強化学習手法を提案している。
まず、長期的制約は、報酬最大化と同様に期待コストを最小化することで、全体的な安全性を確保する。一方、短期的制約は、状態軌跡の安全性を検証することで、探索中の状態安全性を保証する。
この2つの制約を組み合わせることで、提案手法は、探索中の状態安全性と全体的な安全性の両方を確保することができる。さらに、ラグランジュ乗数を用いた双対制約最適化手法を開発し、この最適化問題を解決する。
実験では、MetaDriveシミュレータを用いて評価を行った。結果、提案手法は、状態空間と行動空間が連続的な課題において、より高い安全性と探索性能を示すことが確認された。特に、坂道、急な左折、ラウンドアバウト、交差点などの複雑なシナリオでも優れた性能を発揮した。
Stats
自動運転タスクにおいて、提案手法は従来手法と比較して、以下の指標で優れた性能を示した:
成功率が最大で0.91±0.11と最も高い
エピソードコストが最小で1.31±1.02と最も低い