Core Concepts
텍스트 기반 추론을 통해 벡터 그래픽스에 대한 정확한 시각적 인식과 추론을 달성할 수 있다.
Abstract
이 논문은 벡터 그래픽스에 대한 정확한 시각적 인식과 추론을 위해 텍스트 기반 접근법을 제안한다. 기존 대형 멀티모달 모델들은 선분 길이 비교, 도형 간 공간 관계 파악, 미로 탐색 등 저수준 시각적 세부 사항을 요구하는 간단한 작업에서도 어려움을 겪는다.
이를 해결하기 위해 저자들은 Visually Descriptive Language Model (VDLM)을 제안한다. VDLM은 다음 3단계로 구성된다:
입력 이미지를 SVG 형식으로 인코딩하여 저수준 시각적 특징을 정확하게 캡처
SVG 표현을 Primal Visual Description (PVD)라는 중간 기호 표현으로 변환
PVD 표현을 활용하여 대형 언어 모델로 다양한 추론 작업 수행
실험 결과, VDLM은 기존 최신 모델들보다 벡터 그래픽스 관련 다양한 시각적 추론 작업에서 우수한 성능을 보였다. 또한 VDLM은 인식과 추론 과정이 분리되어 있어 해석 가능성이 높다.
Stats
벡터 그래픽스 이미지를 SVG 형식으로 변환하면 저수준 시각적 세부 사항을 정확하게 캡처할 수 있다.
기존 대형 언어 모델은 원시 SVG 표현을 이해하는 데 한계가 있다.
중간 기호 표현인 PVD를 통해 SVG와 언어 모델을 효과적으로 연결할 수 있다.
Quotes
"현재 대형 멀티모달 모델(LMM)은 여전히 선분 길이 비교나 간단한 미로 해결 등 저수준 시각적 세부 사항을 요구하는 추론 작업에 어려움을 겪는다."
"SVG 표현은 텍스트 기반이지만 언어 모델이 이해하기에는 여전히 부족하다."
"PVD는 SVG 표현과 고수준 언어 공간을 연결하는 중간 기호 표현이다."