Core Concepts
텍스트 중심 시각적 질문 답변 분야에서 대규모 고품질 지시 튜닝 데이터 세트 Square-10M을 구축하여 기존 오픈 소스 모델을 크게 능가하고 선도적인 폐쇄 소스 모델과 필적하는 성능을 달성했다.
Abstract
이 논문은 텍스트 중심 시각적 질문 답변(VQA) 분야에서 대규모 고품질 지시 튜닝 데이터 세트 Square-10M을 구축하는 새로운 접근법을 소개한다.
데이터 구축 프로세스인 Square는 자기 질문, 답변, 추론, 평가의 4단계로 구성된다. 이를 통해 수백만 개의 고품질 VQA 쌍과 추론 컨텍스트를 생성했다.
Square-10M을 활용한 TextSquare 모델은 기존 오픈 소스 모델을 크게 능가하고 GPT4V, Gemini 등 선도적인 폐쇄 소스 모델과 필적하는 성능을 달성했다. 특히 추론 데이터가 모델 성능 향상과 환각 완화에 도움이 된다는 것을 입증했다.
또한 지시 튜닝 데이터 규모, 수렴 손실, 모델 성능 간의 관계를 분석하여, 데이터 규모가 늘어날수록 모델 성능이 향상되는 패턴을 확인했다. 이는 Square-10M의 효과성과 대규모 고품질 데이터의 필요성을 입증한다.
Stats
텍스트 중심 VQA 벤치마크에서 TextSquare는 GPT4V와 Gemini Pro를 능가하는 성능을 보였다.
추론 데이터를 활용하면 VQA 성능이 1.4%와 1.3% 향상되었고, 환각 완화에도 2.7%와 3.2% 효과가 있었다.
지시 튜닝 데이터 규모와 모델 성능은 로그 함수 관계를 보였다.
Quotes
"텍스트 중심 VQA 분야에서 데이터 규모가 늘어날수록 모델 성능이 향상되는 패턴을 확인했다."
"추론 데이터가 모델 성능 향상과 환각 완화에 도움이 된다는 것을 입증했다."