核心概念
Veagle 모델은 기존 다중 모달 모델의 한계를 극복하고 이미지 내 텍스트 이해 능력을 크게 향상시킨다.
要約
이 연구는 다중 모달 학습 모델인 Veagle을 소개한다. Veagle은 기존 다중 모달 모델의 한계를 극복하고자 하는 새로운 접근법을 제시한다.
Veagle의 핵심 구성요소는 다음과 같다:
- 강력한 비전 인코더: mPlugOwl에서 개발한 비전 인코더를 활용하여 이미지의 고수준 시각 정보를 효과적으로 추출한다.
- 동적 비전 추상화기: 비전 인코더의 출력 임베딩을 활용하여 지시에 맞는 시각 특징을 추출하고, 이를 언어 모델에 제공한다.
- 강력한 언어 모델: Mistral 언어 모델을 활용하여 텍스트 이해 능력을 높인다.
Veagle은 두 단계의 학습 과정을 거친다. 첫째, 이미지-텍스트 쌍을 활용하여 비전 인코더와 언어 모델을 사전 학습한다. 둘째, 다양한 시각 질문 답변(VQA) 데이터셋을 활용하여 모델을 fine-tuning한다.
실험 결과, Veagle은 기존 모델 대비 5-6% 향상된 성능을 보였으며, 특히 이미지 내 텍스트 이해 능력이 크게 향상되었다. 또한 Veagle은 다양한 시각 이해 및 질문 답변 과제에서 우수한 성능을 보였다.
統計
이미지 내 텍스트 이해 능력이 기존 모델 대비 5-6% 향상되었다.
시각 질문 답변(VQA) 과제에서 기존 모델 대비 우수한 성능을 보였다.
引用
"Veagle은 기존 다중 모달 모델의 한계를 극복하고 이미지 내 텍스트 이해 능력을 크게 향상시킨다."
"Veagle은 다양한 시각 이해 및 질문 답변 과제에서 우수한 성능을 보였다."