이 연구는 데이터 시각화 이해를 위한 복잡한 질문 생성 및 답변 도출 문제를 다룹니다. 기존 차트 VQA 모델은 단순한 추출 질문에는 강력하지만, 복잡한 추론 질문에는 취약합니다. 이를 해결하기 위해 저자들은 LLM을 활용한 데이터 증강 방법을 제안합니다.
핵심 아이디어는 "단계별 합성" 전략입니다. LLM 기반 데이터 생성기가 복잡한 질문을 단계별 하위 질문(rationale)으로 분해하고, 이를 외부 도구(Python)를 사용하여 최종 답변을 도출하는 방식입니다. 이를 위해 템플릿 기반 QA 생성 파이프라인을 활용하여 합성 데이터를 생성하고, 이를 LLM 기반 생성기 학습에 활용합니다.
실험 결과, 제안 방식으로 생성된 데이터(LAMENDA)를 사용하여 기존 차트 VQA 모델을 학습시킨 결과, ChartQA 데이터셋의 인간 작성 질문에 대한 정확도가 38%에서 54%로 크게 향상되었습니다. 이는 LLM의 강력한 추론 능력을 활용하여 데이터를 증강함으로써 모델의 추론 성능을 크게 개선할 수 있음을 보여줍니다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Li Zhuowan,J... às arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16385.pdfPerguntas Mais Profundas