本研究では、視覚言語モデル (VLM) の接地能力を定量的に評価するための新しい指標を提案している。従来の Pointing Game (PG) 評価では捉えきれない問題点を指摘し、GradCAM 活性化マップを活用した IoU、Dice、Weighted Distance Penalty (WDP)、Inside/Outside Activations Ratio (IOratio) の4つの指標を導入した。
これらの指標を使って、4つの最新の VLM (BLIPbase、BLIPlarge、CLIP gScoreCAM、ALBEF AMC) の接地能力を評価した。実験の結果、以下のような知見が得られた:
提案手法は、視覚言語モデルの接地能力を詳細かつ定量的に評価できる新しい分析ツールとなる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Navid Rajabi... alle arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19128.pdfDomande più approfondite