核心概念
비전 언어 모델의 그라운딩 능력을 정량화하기 위해 GradCAM 활성화 맵을 활용한 새로운 평가 지표를 제안한다. 이를 통해 기존 Pointing Game 평가 방식의 한계를 극복하고, 모델의 그라운딩 성능을 보다 세부적으로 분석할 수 있다.
摘要
이 논문은 비전 언어 모델(VLM)의 그라운딩 능력을 정량화하기 위한 새로운 평가 지표를 제안한다. 기존의 Pointing Game 평가 방식은 모델의 그라운딩 성능을 0/1로 단순하게 판단하여, 다양한 시나리오를 적절히 반영하지 못하는 한계가 있다.
이에 저자들은 GradCAM 활성화 맵을 활용하여 다음과 같은 새로운 지표를 제안한다:
- IoU와 Dice 지표: 활성화 맵과 ground-truth 마스크 간 유사도 측정
- Weighted Distance Penalty (WDP): 그라운딩 박스 외부의 스퓨리어스 활성화에 대한 페널티
- Inside/Outside Activations Ratio (IOratio): 그라운딩 박스 내부와 외부 활성화의 비율
이러한 지표들은 Pointing Game의 한계를 극복하고, 모델의 그라운딩 성능을 보다 세부적으로 분석할 수 있다.
저자들은 이 지표들을 CLIP, BLIP, ALBEF 등 4개의 최신 VLM 모델에 적용하여 성능을 비교하였다. 실험 결과, ALBEFAMC 모델이 전반적으로 가장 우수한 그라운딩 성능을 보였다. 또한 모델 크기와 학습 데이터 크기가 그라운딩 성능에 미치는 영향을 분석하였다.
統計資料
그라운딩 박스 내부 활성화 합계:
BLIP Base: 0.11
BLIP Large: 0.12
CLIP gScoreCAM: 0.20
ALBEF AMC: 0.16
그라운딩 박스 외부 활성화 합계:
BLIP Base: 0.92
BLIP Large: 0.92
CLIP gScoreCAM: 0.90
ALBEF AMC: 0.81
引述
"ALBEFAMC는 전반적으로 가장 우수한 그라운딩 성능을 보였다."
"모델 크기와 학습 데이터 크기가 그라운딩 성능에 미치는 영향이 흥미롭다."