이 논문은 비전-언어 모델 구축 시 고려해야 할 핵심 요소들을 실험적으로 분석하고 있다.
주요 내용은 다음과 같다:
사전 학습된 비전 및 언어 모델의 선택이 최종 모델 성능에 큰 영향을 미친다. 특히 언어 모델의 성능이 더 중요한 것으로 나타났다.
완전 자기회귀 아키텍처가 교차 주의 아키텍처보다 성능이 우수하지만, 안정적인 학습을 위해서는 LoRA 기법 등의 활용이 필요하다.
이미지 토큰 수를 줄이는 학습 가능한 pooling 기법을 활용하면 계산 효율성을 높이면서도 성능 향상을 달성할 수 있다.
이미지의 원래 종횡비와 해상도를 유지하도록 하는 전략은 성능 저하 없이 학습과 추론 속도를 높일 수 있다.
이미지를 부분으로 나누어 학습하면 특히 텍스트 인식 관련 과제에서 성능 향상을 얻을 수 있다.
이러한 통찰을 바탕으로 저자들은 8B 파라미터 규모의 Idefics2 모델을 개발하였으며, 다양한 벤치마크에서 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Deeper Inquiries