핵심 개념
시각-언어 모델의 성능 향상을 위한 훈련 없는 지역 안내 방법 소개
통계
CRG는 ViP-Bench에서 지역 주석이 제공될 때 정확도를 최대 11.1% 향상시킴
CRG는 What'sUp에서 가장 어려운 설정에서 10%의 개선을 보임
CRG는 SugarCrepe의 어려운 분할에서 정확도를 11.5% 및 7.5% 향상
CRG는 SeeTRUE에서 이미지-텍스트 정렬에 대해 최대 8.4 AUROC 및 6.8 F1 포인트 향상
인용구
"CRG는 시각 안내를 통해 모델의 성능을 향상시키는 훈련 없는 방법을 제공합니다."
"CRG는 다양한 시각-언어 작업에서 상당한 개선을 달성했습니다."