핵심 개념
本研究では、自動運転タスクにおける報酬設計の課題に取り組むため、大規模事前学習モデルを活用した逆報酬設計手法を提案する。従来の報酬設計では、「安全に運転する」といった抽象的な目標を定義することが困難であったが、本手法では「衝突する」といった具体的な望ましくない状態を定義することで、大規模事前学習モデルを効果的に活用できる。
초록
本研究は、自動運転タスクにおける効果的な報酬設計手法を提案している。従来の報酬設計では、「安全に運転する」といった抽象的な目標を定義することが困難であったが、本手法では「衝突する」といった具体的な望ましくない状態を定義することで、大規模事前学習モデルを効果的に活用できる。
具体的には以下の通り:
- 大規模事前学習モデルを用いて、エゴ車両の状態と「衝突する」という望ましくない状態の間のコサイン距離を報酬として定義する。
- これにより、エゴ車両が望ましくない状態から遠ざかるほど高い報酬を得られる。
- 提案手法をPPOアルゴリズムと統合し、Highway-envシミュレーション環境で評価した結果、従来手法と比較して優れた一般化性能を示した。
통계
「衝突までの時間(time to collision)が短い状態ほど、報酬が低くなる」
「エゴ車両の速度差が負の値(つまり前車両より速い)状態ほど、報酬が低くなる」