Core Concepts
시각적 프롬프트와 입력 이미지를 처리하여 대상 응답을 생성하는 새로운 멀티모달 언어 모델 SPHINX-V를 소개한다.
Abstract
이 논문은 사람과 인공지능(AI) 간의 상호작용이 멀티모달 대형 언어 모델(MLLM)의 효과를 반영하는 중요한 요인이라고 설명한다. 그러나 현재 MLLM은 주로 이미지 수준의 이해에 초점을 맞추고 텍스트 지침에 제한되어 있어 사용의 유연성과 응답의 깊이가 제한적이다.
이를 해결하기 위해 저자들은 Draw-and-Understand 프로젝트를 소개한다. 이는 새로운 모델인 SPHINX-V, 다영역 데이터셋인 MDVP-Data, 그리고 시각적 프롬프팅을 위한 벤치마크인 MDVP-Bench로 구성된다.
SPHINX-V는 비전 인코더, 시각적 프롬프트 인코더, 그리고 LLM으로 구성된 새로운 엔드-투-엔드 MLLM이다. 이는 다양한 시각적 프롬프트(포인트, 경계 상자, 자유 형태)와 언어 이해를 연결한다.
MDVP-Data는 1.6M개의 고유한 이미지-시각적 프롬프트-텍스트 지침 데이터를 포함하는 다영역 데이터셋이다. 자연 이미지, 문서 이미지, OCR 이미지, 모바일 스크린샷, 웹 스크린샷, 다중 패널 이미지 등 다양한 유형의 데이터를 포함한다.
MDVP-Bench는 상세 설명 참조, 관계 분석, 복잡한 추론 등 다양한 과제를 평가하는 포괄적이고 도전적인 벤치마크이다.
실험 결과, SPHINX-V는 상세 픽셀 수준 설명과 질문-답변 능력에서 큰 향상을 보여주며, 기존 시각적 프롬프팅 모델을 크게 능가하는 것으로 나타났다.
Stats
<Region 1>: 이 개는 밝은 갈색과 흰색 얼굴을 가지고 있다.
<Region 2>: 이 아기 미어캣은 약간 고개를 기울이고 있으며 관람객을 직접 바라보고 있는 것 같다.