核心概念
大規模言語モデルを活用し、視覚と LiDAR の多様なモーダル入力を統合したトークン表現を構築することで、自動運転タスクの性能を向上させる。
要約
本研究では、大規模言語モデル (LLM) を活用した自動運転の新しいフレームワークを提案している。従来の自動運転システムは、個別のモジュールを手動で組み合わせる「パイプライン型」と、エンドツーエンドの強化学習や模倣学習を用いる「エンドツーエンド型」に分類される。
提案手法では、まず視覚と LiDAR の入力を統合したマルチモーダルなトークン表現を構築する。次に、この統合表現をもとに、LLMに自動運転の言語プロンプトを与えることで、運転の記述と行動を生成させる。さらに、生成された出力と安全性チェックの結果に基づき、LLMに再度プロンプトを与えて修正を行う。最後に、報酬ガイド付き強化学習を用いて、LLMの出力精度を向上させる。
実験の結果、提案手法は、CARLA自動運転シミュレータにおいて、現状最高レベルの性能を達成した。LLMを活用することで、単なる経路予測だけでなく、運転の論理性や状況理解を学習できるため、より人間らしい自動運転の実現に寄与すると考えられる。
統計
現在の車両の速度、スロットル、ブレーキ、位置情報を含む
対向車2台の方位角と距離情報を含む
前方10mにバリアがあることを含む
現在の走行速度は20%、トラフィックライトは緑、歩行者は0人であることを含む
引用
"視覚と LiDAR の多様なモーダル入力を統合したトークン表現を構築することで、自動運転タスクの性能を向上させる。"
"LLMを活用することで、単なる経路予測だけでなく、運転の論理性や状況理解を学習できるため、より人間らしい自動運転の実現に寄与すると考えられる。"