Core Concepts
TinyChart는 시각 토큰 병합과 프로그램 기반 사고 학습을 통해 효율적이고 강력한 차트 이해 능력을 갖추고 있다.
Abstract
이 논문은 TinyChart라는 효율적인 멀티모달 차트 이해 모델을 소개한다. TinyChart는 두 가지 핵심 과제를 해결한다:
프로그램 기반 사고 학습 전략을 통해 수치 계산 학습의 부담을 줄인다. 모델은 수치 계산을 위한 Python 프로그램을 생성하도록 학습된다.
시각 토큰 병합 모듈을 통해 고해상도 이미지에서 생성되는 긴 비전 특징 시퀀스를 줄인다. 이를 통해 제한된 컴퓨팅 자원에서도 고해상도 차트 이미지를 효율적으로 인코딩할 수 있다.
실험 결과, 3B 파라미터의 TinyChart는 다양한 차트 이해 벤치마크에서 SOTA 성능을 달성하며, 13B 모델들을 능가하는 빠른 추론 속도를 보여준다. 프로그램 기반 사고 학습은 특히 수치 문제 해결 능력을 크게 향상시켰다.
Stats
차트 이미지 해상도가 높을수록 성능이 크게 향상된다.
시각 토큰 병합을 통해 고해상도 이미지를 효율적으로 인코딩할 수 있다.
프로그램 기반 사고 학습은 수치 문제 해결 능력을 크게 향상시킨다.
Quotes
"TinyChart는 13B 모델들을 능가하는 빠른 추론 속도를 보여준다."
"프로그램 기반 사고 학습은 특히 수치 문제 해결 능력을 크게 향상시켰다."