Concetti Chiave
본 논문에서는 다중 이미지를 활용한 시각적 접지 작업에서 기존 멀티모달 대규모 언어 모델(MLLM)의 성능을 평가하고, 이러한 모델의 잠재력과 개선 가능성을 확인하기 위해 새로운 벤치마크 데이터셋인 MC-Bench를 제시합니다.
Sintesi
MC-Bench: 다중 이미지 시나리오에서 멀티모달 대규모 언어 모델의 시각적 접지 능력을 평가하기 위한 벤치마크
본 논문에서는 최근 멀티모달 대규모 언어 모델(MLLM)의 발전에도 불구하고, 다중 이미지를 활용한 시각적 접지 작업에서 여전히 개선의 여지가 있다는 점을 지적합니다. 특히, 기존 모델들은 단일 이미지 기반의 작업에 집중하여 다중 이미지 간의 관계 및 맥락을 이해하는 데 어려움을 보입니다. 이러한 문제점을 해결하고 MLLM의 다중 이미지 이해 능력을 정확하게 평가하기 위해, 본 논문에서는 새로운 벤치마크 데이터셋인 MC-Bench를 제시합니다.
MC-Bench는 2,000개의 이미지 쌍과 이에 대한 자연어 텍스트 질의, 그리고 각 질의에 해당하는 이미지 내 객체의 위치 정보를 포함하는 데이터셋입니다. 텍스트 질의는 단순 객체 지칭, 비교, 추론의 세 가지 유형으로 구성되며, 20가지의 실제적인 능력을 평가할 수 있도록 설계되었습니다.
MC-Bench 데이터셋의 특징
다양한 도메인(자연 이미지, 차트, 문서 사진, 예술 작품, 과학 다이어그램 등)에서 수집된 3,345개의 이미지를 포함합니다.
각 이미지 쌍은 시간적, 공간적 또는 의미적으로 연관되어 있으며, 텍스트 질의는 이러한 관계를 기반으로 합니다.
텍스트 질의는 객체의 범주, 속성 또는 위치 정보를 직접 또는 간접적으로 나타내는 방식으로 구성됩니다.
비교 유형의 질의는 여러 이미지의 시각적 콘텐츠를 비교하여 객체를 찾도록 요구합니다.
추론 유형의 질의는 외부 지식(예: 상식 및 다단계 추론 능력)을 요구하는 보다 난이도 높은 질문을 포함합니다.