Khái niệm cốt lõi
人間運転者との協調を実現するために、少量の人間運転データを用いた正規化自己学習強化学習手法を提案し、効果的かつ人間らしい運転行動を示す。
Tóm tắt
本論文は、自動運転車と人間運転者の協調を実現するための手法を提案している。
まず、既存の自動運転車開発手法の課題を指摘する。従来の模倣学習では、多数の人間運転データを必要とするが、閉ループ環境での性能が低い。一方、強化学習のみでは、人間らしい運転行動を生成することが難しい。
そこで本手法では、少量の人間運転データを用いた正規化自己学習強化学習(HR-PPO)を提案する。HR-PPOでは、自己学習による報酬最大化と、人間運転データとの乖離を最小化する正規化項を組み合わせる。これにより、効果的な運転性能と人間らしい運転行動の両立を実現する。
具体的な評価では、HR-PPOが高い目標到達率と低い衝突率を示し、人間運転データとの類似性も高いことを確認した。さらに、人間運転者との相互作用場面でも良好な性能を発揮することを示した。
本手法は、少量の人間運転データから人間との協調を実現する自動運転車の開発に貢献する。今後の課題として、より大規模なデータを用いた一般化性の向上や、人間との直接的な相互作用評価などが挙げられる。
Thống kê
人間運転者の平均加速度誤差は2.09 m/s2である。
人間運転者の平均操舵角誤差は0.02 radianである。
人間運転者の平均速度誤差は1.82 m/sである。
Trích dẫn
"HR-PPO agents are highly effective in achieving goals, with a success rate of 93%, an off-road rate of 3.5 %, and a collision rate of 3 %."
"HR-PPO agents show considerable improvements on proxy measures for coordination with human driving, particularly in highly interactive scenarios."