Core Concepts
提案されたRD-ACPPOアプローチは、非信号交差点での相互認識型自動運転のためのRLポリシーを訓練することを可能にし、最高のタスク成功率と効果的なトレーニング成果を実現します。
Abstract
自動化されたカリキュラム選択メカニズムにより、異なるカリキュラムに対する重要性の割り当てが合理的に行われます。
RD-ACPPOエージェントは、すべてのテストタスクで最高の適応性とドライブパフォーマンスを示しました。
CARLAシミュレーターでの実験結果も提案手法の有効性を裏付けています。
イントロダクション
自律走行技術は進歩しているが、密集した交差点での課題が残っている。
信号なし交差点では周囲車両(SVs)の意図不明確さが安全上懸念される。
ルールベースと最適化ベース手法
ルールベース手法は安全性優先だが、すべての交通シナリオを考慮しきれない。
最適化ベース手法は計算コストが高く、急激な変化に対応しづらい。
強化学習(RL)
RLは自律走行で大きな可能性を示すが、サンプル効率が低い課題あり。
カリキュラム学習はこの問題を解決する有望な方法。
RD-ACPPOフレームワーク
相互作用型RD-ACPPOフレームワークは非信号交差点で自動運転タスク向けに提案された。
提案手法は他手法よりも優れたトレーニング成果と高いタスク成功率を示した。
Stats
Comparative experiments are conducted in Highway Env, and the results indicate that our approach achieves the highest task success rate.
The reward function is meticulously designed to guide the agent towards effective policy exploration.