Conceitos essenciais
HE-Driveは、人間の運転のように、時間的に一貫性があり快適な軌道を生成する、人間中心型のエンドツーエンド自動運転システムである。
Resumo
HE-Drive: 視覚言語モデルを用いた人間らしいエンドツーエンド運転
この論文は、人間の運転のように、時間的に一貫性があり快適な軌道を生成する、新しい人間中心型のエンドツーエンド自動運転システム、HE-Driveを提案しています。
既存のエンドツーエンド自動運転システムは、時間的に一貫性のない、不快な軌道を生成するという課題に直面しています。この研究は、これらの課題を克服し、人間の運転行動により近い、より自然で快適な自動運転を実現することを目的としています。
HE-Driveは、スパース知覚、拡散ベースのモーションプランナー、およびVLMsガイド付き軌道スコアリングシステムの3つの主要コンポーネントで構成されています。
スパース知覚:
入力されたマルチビューカメラ画像から視覚的特徴を抽出し、周囲環境の効率的かつコンパクトな3D表現を生成します。
検出、追跡、オンラインマッピングのタスクを同時に行い、モジュールシステムに固有の情報損失とエラー伝播を軽減します。
拡散ベースモーションプランナー:
スパース知覚ネットワークによって抽出された3D表現と、速度、加速度、ヨーを含む履歴予測軌道を条件として、条件付きデノイジング拡散確率モデル(DDPM)を使用して、時間的に一貫性のあるマルチモーダル軌道を生成します。
従来の模倣学習ベースのプランナーとは異なり、拡散モデルはシーンの特徴とドライバーの行動の同時分布を潜在空間で学習することにより、因果関係をより適切に捉えることができます。
VLMsガイド付き軌道スコアリングシステム:
DDPMによって生成されたマルチモーダル軌道から最適なパスを選択するために、ルールベースのスコアラーと視覚言語モデル(VLMs)を組み合わせた新しい軌道スコアリングシステムを導入しています。
ルールベースのスコアリング戦略では、安全性と快適性の観点から軌道を評価するための包括的なコスト関数を定義しています。
VLMsは、運転スタイル(例:積極的または保守的)を調整するために使用され、新しい運転シナリオに適応します。
このアプローチにより、モデルの幻覚に関連する安全リスクを軽減し、新しいシナリオに対するルールベースの軌道スコアラの適応性を向上させています。