Core Concepts
CLIP (Contrastive Language-Image Pre-Training) を使用して画像データセットを自然言語プロンプトに基づいて並べ替えることで、関連画像を自動的に抽出する方法を提案する。
Abstract
本論文では、自動運転システム (ADS) の知覚テストのために、自然言語プロンプトに基づいて関連画像を自動的に抽出する手法を提案している。
まず、CLIP ネットワークを使用して画像とテキストを共通の潜在空間にマッピングし、テキストプロンプトに最も近い画像を検索する。しかし、単に画像を並べ替えただけでは、関連画像の抽出に必要な閾値を手動で設定する必要がある。
そこで本手法では、コサイン距離の分布を2つの正規分布の和としてモデル化し、その交点を自動的に閾値として決定する。これにより、関連画像の抽出を完全に自動化することができる。また、偽陽性と偽陰性のバランスを取ることにも配慮している。
実験では、ACDC データセットを使用し、「雪」「霧」「雨」「夜間」といったプロンプトに対して、提案手法の性能を評価している。結果、提案手法は手動で設定した最適なF1スコアに匹敵する性能を示した。さらに、「信号機」というプロンプトでは、2つの正規分布でモデル化できない場合の代替手法としての単一の正規分布モデルの適用も検討している。
本手法は、ADS の知覚システムの開発と検証に必要な関連画像を自動的に抽出することで、開発プロセスの効率化に貢献できると期待される。
Stats
提案手法の閾値を使用した場合、「雪」プロンプトでは902枚の画像が抽出され、F1スコアは0.914、精度は0.963、再現率は0.869、正解率は0.980、特異度は0.995であった。
最適なF1スコアに基づく閾値を使用した場合、「雪」プロンプトでは979枚の画像が抽出され、F1スコアは0.924、精度は0.934、再現率は0.914、正解率は0.981、特異度は0.991であった。