Core Concepts
大規模ビジョン言語モデルは自動運転の解釈可能性を大幅に向上させましたが、現在の評価は一般的なシナリオに焦点を当てており、自動運転のコーナーケースに対する定量的な評価が不足しています。本研究では、CODA-LMと呼ばれる新しいベンチマークを提案し、強力な言語モデルを評価者として採用することで、ビジョン言語モデルの自動運転コーナーケースに対する理解を包括的に評価しています。
Abstract
本研究は、自動運転の解釈可能性を大幅に向上させる大規模ビジョン言語モデルの能力を評価するための新しいベンチマーク「CODA-LM」を提案しています。
CODA-LMは、一般認知、領域認知、運転提案の3つのタスクから構成されており、CODA[23]データセットに基づいて構築されています。データ収集では、強力なビジョン言語モデルを使ってテキスト注釈を生成し、人手による検証と修正を行っています。
評価フレームワークでは、強力な言語モデルを評価者として採用し、正確性、ホーリネーション、一貫性などの基準に基づいて採点しています。これにより、ビジョン言語モデルの自動運転コーナーケースに対する理解を包括的に評価することができます。
実験の結果、オープンソースおよび商用のビジョン言語モデルは、自動運転のコーナーケースに十分に対応できていないことが明らかになりました。CODA-LMは、信頼性の高い自動運転システムの開発を促進するための重要なツールとなることが期待されます。
Stats
大型バスは、大きく遅い移動体であるため、自車の進路を阻害する可能性がある。
自転車は脆弱な道路利用者であり、自車は十分な注意を払う必要がある。
交通標識は道路状況の変化を示しており、自車は状況に応じて対応する必要がある。
障壁は道路レイアウトの変化や予期せぬ道路状況を示唆しており、自車は注意深く対応する必要がある。
Quotes
"大規模ビジョン言語モデルは、自動運転の解釈可能性を大幅に向上させましたが、現在の評価は一般的なシナリオに焦点を当てており、自動運転のコーナーケースに対する定量的な評価が不足しています。"
"実験の結果、オープンソースおよび商用のビジョン言語モデルは、自動運転のコーナーケースに十分に対応できていないことが明らかになりました。"