Conceitos Básicos
LLM을 활용하여 대규모 차트 데이터셋 SynChart를 구축하고, 이를 통해 차트 이해 및 질의응답 모델을 개발하여 GPT-4O 수준의 성능을 달성하였다.
Resumo
이 연구는 LLM을 활용하여 대규모 차트 데이터셋 SynChart를 구축하고, 이를 통해 차트 이해 및 질의응답 모델을 개발하는 것을 목표로 한다.
데이터 생성 과정은 다음과 같이 3단계로 구성된다:
- 다양한 데이터 테이블 생성: 차트 유형별 제약 조건을 고려하여 다양한 데이터 테이블을 LLM을 통해 생성한다.
- 차트 이미지 생성: 생성된 데이터 테이블을 바탕으로 Matplotlib, Seaborn, Plotly, Bokeh 등의 차트 엔진을 활용하여 차트 이미지를 생성한다.
- 질의응답 쌍 생성: 각 차트 이미지에 대한 단순 질문-답변 쌍과 복잡한 질문-답변 쌍을 LLM을 통해 생성한다.
이렇게 구축된 SynChart 데이터셋을 활용하여 4.2B 규모의 차트 전문 멀티모달 모델을 학습하였다. 실험 결과, 이 모델은 ChartQA 벤치마크에서 GPT-4O 수준의 성능을 달성하였으며, 공개 모델들을 크게 능가하는 성과를 보였다.
데이터 규모와 다양성이 모델 성능에 미치는 영향을 분석한 결과, SynChart 데이터셋의 확장성이 우수한 것으로 나타났다. 이는 합성 데이터셋의 한계를 극복하고 고성능 멀티모달 모델 구축에 기여할 것으로 기대된다.
Estatísticas
차트 유형별 데이터 테이블 생성 시 활용한 제약 조건은 표 6과 같다.
차트 이미지 생성에 활용한 차트 엔진과 지원 차트 유형은 표 7과 같다.
Citações
"Since the quantity and quality of data are key determinants of model performance, this work focuses on building a large-scale chart dataset and applying well-established training pipelines."
"Using this scalable data generation process, we developed a large-scale chart dataset called SynChart, which contains approximately 4 million diverse chart images."
"Leveraging SynChart, we trained a chart-specific multi-modality model by combining Phi3.5 (3.8B) and CLIP-L (0.3B). As illustrated in Figure 1, the model's performance on the ChartQA benchmark is close to GPT-4O and surpasses GPT-4V."