핵심 개념
본 연구는 VLM이 특정 작업 및 시각화 유형 조합에서 인간과 유사한 수준으로 데이터 시각화를 이해할 수 있는 잠재력을 가지고 있음을 시사합니다.
초록
비전-언어 모델의 제로샷 프롬프팅을 통한 데이터 시각화에서의 그래픽 인식 이해: VLM의 인간과 유사한 차트 이해 능력 평가
본 연구는 GPT-4o-mini와 같은 비전-언어 모델(VLM)이 인간과 유사한 그래픽 인식 능력을 보이는지 평가하는 것을 목표로 합니다. 이를 위해 VLM이 시각화에서 데이터를 추출하고 비교하는 능력을 평가하는 데 중점을 둡니다.
연구진은 인간 참가자를 대상으로 수행된 이전 연구(Cleveland & McGill, 1984; Heer & Bostock, 2010)에서 사용된 자극과 작업을 활용하여 VLM의 그래픽 인식 능력을 평가했습니다. 7가지 유형의 차트와 각 차트 유형별 45개의 시각화를 사용하여 VLM의 정확도를 측정했습니다. VLM에는 어떤 세그먼트가 더 작은지, 작은 세그먼트가 큰 세그먼트의 몇 퍼센트인지 묻는 두 가지 질문을 제시했습니다. 또한, 프롬프트의 표현 방식(색상 언급 여부, 설명 요구 여부), 시각화의 스타일 변화(색상, 세그먼트 연속성), 레이블 순서의 영향을 평가했습니다.