Centrala begrepp
視覚言語モデルの接地能力を定量的に評価するための新しい指標を提案し、主要な視覚言語モデルの性能を比較する。
Sammanfattning
本研究では、視覚言語モデル (VLM) の接地能力を定量的に評価するための新しい指標を提案している。従来の Pointing Game (PG) 評価では捉えきれない問題点を指摘し、GradCAM 活性化マップを活用した IoU、Dice、Weighted Distance Penalty (WDP)、Inside/Outside Activations Ratio (IOratio) の4つの指標を導入した。
これらの指標を使って、4つの最新の VLM (BLIPbase、BLIPlarge、CLIP gScoreCAM、ALBEF AMC) の接地能力を評価した。実験の結果、以下のような知見が得られた:
- ALBEF AMC が最も優れた接地能力を示し、モデルサイズや学習データ量よりも、fine-tuningによる接地能力の向上が重要であることが分かった。
- PG精度が高くても、PG Uncertaintyが高い場合があり、両指標を組み合わせて評価することが重要である。
- IOratio指標は PG精度と強い相関があり、モデルの接地能力を単一の指標で評価できる。
- OOD データでも提案指標は有効に機能し、モデルの一般化性能を評価できることが示された。
提案手法は、視覚言語モデルの接地能力を詳細かつ定量的に評価できる新しい分析ツールとなる。
Statistik
活性化マップ内の活性値の合計は、正解バウンディングボックス内の活性値の合計と正解バウンディングボックス外の活性値の合計の比率で表現できる。
正解バウンディングボックス内の活性値の合計と正解バウンディングボックス外の活性値の合計の比率の対数をシグモイド関数に入力することで、モデルの接地能力を0から1の値で表現できる。
活性化マップ内の各ピクセルの活性値と距離に基づいて、正解バウンディングボックス外の活性値に対する重み付きペナルティを計算できる。
Citat
「視覚言語モデルは依然として、合成的なシーン理解の側面を捉えるのが苦手で、言語句を適切に接地およびローカライズする能力に欠けている。」
「Pointing Gameは0/1の粗い特性しか提供せず、スプリアスなローカルマキシマムの存在や、複数のマキシマムの存在など、モデルの接地確信度を適切に捉えられない。」