本研究は、自律走行車の重要な課題である車線変更の意思決定と制御について取り組んだものである。
まず、PASAC(パラメータ化されたソフトアクター・クリティック)アルゴリズムを用いて、離散的な車線変更決定と連続的な縦方向加速度制御を実現した。
次に、同じ報酬/コスト関数と交通流条件の下で、PASACとMPC(モデル予測制御)の性能を比較した。
シミュレーション結果から、両手法とも衝突率0%を達成し、平均報酬/コストや車速などの指標でも同等の性能を示した。
PASACはMPCと比べて、学習時間が長いものの、実行時間が短く実用的であるという特徴がある。一方、MPCはオンライン最適化を必要とし、計算リソースを多く必要とするという課題がある。
本研究は、ハイブリッド行動空間の強化学習アルゴリズムの実用的な応用例を示すとともに、強化学習とモデル予測制御の比較を初めて行ったものである。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問