本研究は、自律走行シミュレーションにおける4つの主要な課題、すなわち行動の多様性、高次元性、分布のシフト、情報の不完全性に取り組む。
まず、閉ループの差分可能なシミュレーションを用いた方法論を分析し、勾配経路の存在と勾配爆発の問題を明らかにした。これを踏まえ、以下の2つの正則化手法を提案する:
開ループのモデルベース模倣学習の正則化: 安定した学習を実現するために、最適な方策の近傍に関数空間を狭めるものである。
モデルベースの強化学習の正則化: データ分布に含まれない領域での方策を制約するために、差分可能な報酬関数を導入し、ドメイン知識を注入するものである。
さらに、異種エージェントの多様な行動を効果的に圧縮するために、時間的に抽象化されたコードブック混合モジュールを提案した。これにより、潜在変数の事前分布の穴や事後分布の崩壊の問題を緩和できる。
最後に、正則化項と主目的関数の干渉を排除しつつ、その有効性を確保するための動的な乗数メカニズムを導入した。
提案手法をWaymo Open Motion Datasetで検証した結果、衝突率やminSADEなどの重要指標で大幅な性能向上が確認された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究