核心概念
自動運転車システムの安全性を確保するために、ビジョン言語モデルとラージランゲージモデルを活用して、自動的にデータの問題を特定し、効率的にデータをキュレーションし、モデルを更新し、検証するシステムを提案する。
要約
本論文は、自動運転車(AV)システムの安全性を確保するために、ビジョン言語モデル(VLM)とラージランゲージモデル(LLM)を活用した自動データエンジン「AIDE」を提案している。
Issue Finder:
- 密集キャプショニングモデルを使用して、画像の詳細な説明を生成し、既存のラベルスペースに含まれていないオブジェクトを自動的に特定する。
Data Feeder:
- VLMを使用して、特定された新規カテゴリに関連する画像を効率的に検索する。これにより、後続の擬似ラベル生成の処理時間を大幅に短縮し、関連のない画像をフィルタリングできる。
Model Updater:
- OWL-v2を使用して新規カテゴリの物体検出を行い、CLIPによるゼロショット分類でフィルタリングすることで、人手のラベル付けなしに擬似ラベルを生成する。
- 既知カテゴリの擬似ラベルも活用することで、既知カテゴリの性能を維持しつつ、新規カテゴリの検出精度を向上させる。
Verification:
- LLMを使用して、新規カテゴリを含む様々なシナリオの記述を生成し、VLMでそれらの画像を検索することで、モデルの頑健性を検証する。
- 検証の結果、モデルの予測が正しくない場合は人手によるラベル付けを行い、モデルを更新する。
全体として、AIDE は人手のラベル付けコストを大幅に削減しつつ、新規カテゴリの検出精度を向上させることができる。
統計
新規カテゴリの平均精度(AP)は、OWL-v2の9.7%から12.0%に向上した。
既知カテゴリの精度は26.6%を維持しつつ、新規カテゴリの精度も向上した。
1回のVerification後の新規カテゴリのAPは14.2%に達し、コストは$1.59と低コストを実現した。