핵심 개념
LLM을 활용하여 단계별로 복잡한 질문을 분해하고 외부 도구를 사용하여 답변을 도출하는 방식으로 데이터를 생성함으로써, 기존 차트 VQA 모델의 추론 능력을 크게 향상시킬 수 있다.
초록
이 연구는 데이터 시각화 이해를 위한 복잡한 질문 생성 및 답변 도출 문제를 다룹니다. 기존 차트 VQA 모델은 단순한 추출 질문에는 강력하지만, 복잡한 추론 질문에는 취약합니다. 이를 해결하기 위해 저자들은 LLM을 활용한 데이터 증강 방법을 제안합니다.
핵심 아이디어는 "단계별 합성" 전략입니다. LLM 기반 데이터 생성기가 복잡한 질문을 단계별 하위 질문(rationale)으로 분해하고, 이를 외부 도구(Python)를 사용하여 최종 답변을 도출하는 방식입니다. 이를 위해 템플릿 기반 QA 생성 파이프라인을 활용하여 합성 데이터를 생성하고, 이를 LLM 기반 생성기 학습에 활용합니다.
실험 결과, 제안 방식으로 생성된 데이터(LAMENDA)를 사용하여 기존 차트 VQA 모델을 학습시킨 결과, ChartQA 데이터셋의 인간 작성 질문에 대한 정확도가 38%에서 54%로 크게 향상되었습니다. 이는 LLM의 강력한 추론 능력을 활용하여 데이터를 증강함으로써 모델의 추론 성능을 크게 개선할 수 있음을 보여줍니다.
통계
2010년 민주당과 공화당의 총 득표수는 113입니다.
2002년 값은 16.2%, 2003년 값은 16.7%, 2004년 값은 15.0%입니다.
인용구
"Understanding data visualizations like charts and plots requires reasoning about both visual elements and numerics."
"Importantly, these human-written questions pose great challenges for contemporary models. For example, the state-of-the-art model [35] achieves only 38% accuracy when confronted with human-written questions that require multi-step complex reasoning."
"Our key innovation in our method lies in the Synthesize Step-by-Step strategy: our LLM-based data generator learns to decompose the complex question into step-by-step sub-questions (rationales), which are then used to derive the final answer using external tools, i.e. Python."