이 논문은 대규모 언어-비전 모델(LVLM)의 성능 향상을 위한 새로운 접근법을 제안한다. LVLM은 언어와 비전 정보를 통합하여 다양한 비전-언어 작업을 수행할 수 있지만, 기존 모델들은 세부적인 시각 객체 정보를 충분히 활용하지 못해 시각적 환각과 사실적 오류가 발생하는 문제가 있다.
이를 해결하기 위해 저자들은 Lyrics라는 새로운 모델을 제안한다. Lyrics는 두 단계의 학습 과정을 거친다. 첫째, 사전 학습 단계에서 다중 과제 학습을 통해 세부적인 언어-비전 정렬을 수행한다. 이때 시각 리파이너 모듈을 활용하여 이미지 태깅, 객체 탐지, 의미 분할 등의 정보를 추출하고 이를 다중 스케일 질의 변환기(MQ-Former)에 주입한다. 둘째, 지시 학습 미세 조정 단계에서는 의미 인식 시각 객체 정보를 활용하여 언어-비전 생성 학습을 수행한다.
실험 결과, Lyrics는 다양한 비전-언어 작업에서 우수한 성능을 보였으며, 특히 세부적인 시각 객체 이해와 추론 능력이 향상된 것으로 나타났다. 이를 통해 Lyrics는 기존 LVLM의 한계를 극복하고 실세계 대화 능력을 향상시킬 수 있음을 보여주었다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Junyu Lu,Dix... às arxiv.org 04-15-2024
https://arxiv.org/pdf/2312.05278.pdfPerguntas Mais Profundas