이 논문은 비전 언어 모델(VLM)의 그라운딩 능력을 정량화하기 위한 새로운 평가 지표를 제안한다. 기존의 Pointing Game 평가 방식은 모델의 그라운딩 성능을 0/1로 단순하게 판단하여, 다양한 시나리오를 적절히 반영하지 못하는 한계가 있다.
이에 저자들은 GradCAM 활성화 맵을 활용하여 다음과 같은 새로운 지표를 제안한다:
이러한 지표들은 Pointing Game의 한계를 극복하고, 모델의 그라운딩 성능을 보다 세부적으로 분석할 수 있다.
저자들은 이 지표들을 CLIP, BLIP, ALBEF 등 4개의 최신 VLM 모델에 적용하여 성능을 비교하였다. 실험 결과, ALBEFAMC 모델이 전반적으로 가장 우수한 그라운딩 성능을 보였다. 또한 모델 크기와 학습 데이터 크기가 그라운딩 성능에 미치는 영향을 분석하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Navid Rajabi... at arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19128.pdfDeeper Inquiries