이 논문은 차트 이해 및 추론을 위한 새로운 지침 기반 데이터셋 ChartInstruct를 소개한다. ChartInstruct는 실제 차트 이미지와 다양한 유형의 지침으로 구성되어 있다. 이를 통해 기존 차트 관련 작업(차트 질문 답변, 차트 요약, 차트 사실 확인 등)뿐만 아니라 새로운 유형의 작업(패턴 및 이상치 탐지, 상관관계 분석, 추세 예측 등)을 수행할 수 있는 모델을 개발하였다.
저자들은 두 가지 모델링 접근법을 제안한다. 첫 번째는 비전 인코더와 언어 모델을 연결하는 end-to-end 모델이고, 두 번째는 차트 이미지에서 데이터 테이블을 추출한 후 언어 모델에 입력하는 파이프라인 모델이다. 이 모델들은 기존 벤치마크 데이터셋에서 최신 성능을 보였을 뿐만 아니라, 새로운 유형의 차트 관련 작업에서도 우수한 성능을 보였다.
이 연구는 차트 이해 및 추론을 위한 새로운 지침 기반 데이터셋과 모델링 접근법을 제안함으로써 실제 세계의 다양한 차트 활용 시나리오에 적용할 수 있는 일반적인 차트 이해 및 추론 모델을 개발하는 데 기여한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問