核心概念
強化学習を用いた自律走行車の軌道計画手法において、反復報酬予測と不確実性伝播を導入することで、学習の安定性と性能を向上させる。
摘要
本論文では、自律走行車の軌道計画のために強化学習を用いる手法を提案している。従来の強化学習ベースの軌道計画手法には、学習の不安定性や不確実性の考慮不足といった課題があった。
提案手法では以下の2つの改善点を導入している:
- 反復報酬予測(Iterative Reward Prediction, IRP)
- 状態遷移と報酬の予測を反復的に行うことで、より正確な報酬予測を実現する。
- これにより、強化学習エージェントの学習の安定性と性能が向上する。
- 不確実性伝播
- 自車の状態予測と他車の状態予測における不確実性を考慮する。
- 不確実性を考慮することで、安全な軌道計画が可能となる。
提案手法をCARLAシミュレータで評価した結果、従来手法と比較して、衝突率を60.17%削減し、平均報酬を30.82倍向上させることができた。
統計資料
提案手法は従来手法と比較して、衝突率を60.17%削減した。
提案手法は従来手法と比較して、平均報酬を30.82倍向上させた。