Core Concepts
대규모 비전-언어 모델의 다중 모달 능력을 정확하게 평가하기 위해서는 시각 콘텐츠에 의존적인 샘플과 데이터 누출 문제를 해결해야 한다.
Abstract
이 논문은 대규모 비전-언어 모델(LVLM)의 평가에 있어 두 가지 주요 문제를 제기한다.
시각 콘텐츠가 필요 없는 많은 평가 샘플들이 존재한다. 질문과 선택지만으로 정답을 유추할 수 있거나, 대규모 언어 모델(LLM)에 내재된 세계 지식으로 답변할 수 있다. 이는 현재 벤치마크에 널리 퍼져있는 현상이다. 예를 들어, GeminiPro는 시각 입력 없이도 MMMU 벤치마크에서 42.9%를 달성했고, 6개 벤치마크에서 무작위 선택 기준선을 20% 이상 능가했다.
LLM과 LVLM 학습 과정에서 의도치 않은 데이터 누출이 존재한다. LLM과 LVLM이 시각 입력 없이도 일부 시각 필수 질문에 답변할 수 있는데, 이는 대규모 학습 데이터 내에서 이러한 샘플을 암기했기 때문으로 보인다. 예를 들어, Sphinx-X-MoE는 이미지 접근 없이도 MMMU에서 43.6%를 달성했고, 이는 LLM 백본의 17.9%를 능가한다.
이러한 문제들은 실제 다중 모달 성능 향상을 잘못 판단하게 하고 LVLM 연구를 오도할 수 있다. 이를 해결하기 위해 저자들은 MMStar 벤치마크를 제안한다. MMStar는 1,500개의 엄선된 시각 필수 샘플로 구성되며, 6가지 핵심 능력과 18개 세부 축을 평가한다. 또한 다중 모달 성능 향상과 데이터 누출 정도를 측정하는 두 가지 새로운 지표를 개발했다.
Stats
대부분의 LLM이 시각 입력 없이도 MMMU 벤치마크의 42.9%를 달성했다.
GeminiPro는 시각 입력 없이도 6개 벤치마크에서 무작위 선택 기준선을 20% 이상 능가했다.
Sphinx-X-MoE는 이미지 접근 없이도 MMMU에서 43.6%를 달성했고, 이는 LLM 백본의 17.9%를 능가했다.
Quotes
"Visual content is unnecessary for many samples. The answers can be directly inferred from the questions and options, or the world knowledge embedded in LLMs."
"Unintentional data leakage exists in LLM and LVLM training. LLM and LVLM could still answer some visual-necessary questions without visual content, indicating the memorizing of these samples within large-scale training data."