이 논문은 비전 언어 모델(VLM)의 그라운딩 능력을 정량화하기 위한 새로운 평가 지표를 제안한다. 기존의 Pointing Game 평가 방식은 모델의 그라운딩 성능을 0/1로 단순하게 판단하여, 다양한 시나리오를 적절히 반영하지 못하는 한계가 있다.
이에 저자들은 GradCAM 활성화 맵을 활용하여 다음과 같은 새로운 지표를 제안한다:
이러한 지표들은 Pointing Game의 한계를 극복하고, 모델의 그라운딩 성능을 보다 세부적으로 분석할 수 있다.
저자들은 이 지표들을 CLIP, BLIP, ALBEF 등 4개의 최신 VLM 모델에 적용하여 성능을 비교하였다. 실험 결과, ALBEFAMC 모델이 전반적으로 가장 우수한 그라운딩 성능을 보였다. 또한 모델 크기와 학습 데이터 크기가 그라운딩 성능에 미치는 영향을 분석하였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Navid Rajabi... a las arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19128.pdfConsultas más profundas