이 연구는 다중 모달 학습 모델인 Veagle을 소개한다. Veagle은 기존 다중 모달 모델의 한계를 극복하고자 하는 새로운 접근법을 제시한다.
Veagle의 핵심 구성요소는 다음과 같다:
Veagle은 두 단계의 학습 과정을 거친다. 첫째, 이미지-텍스트 쌍을 활용하여 비전 인코더와 언어 모델을 사전 학습한다. 둘째, 다양한 시각 질문 답변(VQA) 데이터셋을 활용하여 모델을 fine-tuning한다.
실험 결과, Veagle은 기존 모델 대비 5-6% 향상된 성능을 보였으며, 특히 이미지 내 텍스트 이해 능력이 크게 향상되었다. 또한 Veagle은 다양한 시각 이해 및 질문 답변 과제에서 우수한 성능을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Rajat Chawla... ב- arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08773.pdfשאלות מעמיקות