Core Concepts
최신 MLLMs는 NLVR 작업에서 성능이 저조하며 공간 및 구성적 도전에 대응하지 못한다.
Abstract
요약:
최신 MLLMs인 GPT-4V, Gemini Pro, IDEFICS의 NLVR 성능 평가
NLVR 작업은 공간 및 구성적 추론 능력을 평가
성능이 인간 수준 이하이며 개선이 필요함
구조:
초록
세 가지 MLLMs의 NLVR 성능 평가
소개
최근 MLLMs의 성능과 과거의 시맨틱 편향 문제
NLVR 작업 배경
NLVR 작업의 목적과 이미지 유형 설명
실험 설정
Test-P 분할에서 세 가지 모델 평가
결과 및 분석
Test-P의 전체 정확도 및 모델 비교
결론
세 모델의 NLVR 성능 평가 결과
Stats
GPT-4V의 제로샷 정확도는 59.9%
Gemini Pro의 제로샷 정확도는 49.9%
IDEFICS의 제로샷 정확도는 55.9%
GPT-4V의 5샷 정확도는 58.0%
Gemini Pro의 5샷 정확도는 51.5%
IDEFICS의 5샷 정확도는 45.1%
IDEFICS의 파인튜닝 정확도는 59.7%
Quotes
"NLVR 작업은 공간 및 구성적 추론 능력을 평가한다." - Suhr et al., 2017
"MLLMs는 NLVR에서 성능이 저조하며 공간 및 구성적 도전에 대응하지 못한다." - Content