Keskeiset käsitteet
대규모 생성 비전-언어 모델의 다중 모달 합성적 추론 성능이 충분히 탐구되지 않았다.
Tiivistelmä
이 논문은 대규모 생성 비전-언어 모델(GVLM)의 다중 모달 합성적 추론 성능을 평가하기 위한 지표와 벤치마크를 조사한다.
- 현재 벤치마크에 존재하는 통사적 편향을 확인하고, VisualGPTScore가 이러한 편향을 충분히 반영하지 못함을 보인다.
- SyntaxBias Score를 정의하여 통사적 편향을 정량화하고, 이를 바탕으로 편향을 완화한 새로운 벤치마크 SADE를 제안한다.
- SADE를 통해 다양한 GVLM 모델의 성능을 평가하고, 모델의 강점과 약점을 분석한다.
Tilastot
현재 벤치마크에서 부정적 참조문의 생성 방식이 GVLM의 통사적 정확성을 활용하게 만든다.
GVLM은 시각적 정보보다는 언어 모델의 능력에 더 의존하는 경향이 있다.
제안한 SADE 벤치마크는 통사적 편향을 완화하고 시각 콘텐츠 이해를 평가하는 새로운 과제를 포함한다.
Lainaukset
"VisualGPTScore sometimes prefers syntactical correctness rather than content-related correctness under the current benchmarks."
"A prevalent syntactical bias is present in contemporary multimodal compositional reasoning benchmarks."