이 논문은 대규모 멀티모달 모델(LMM)의 비전 중심 기능을 향상시키기 위한 Lumen 모델을 제안한다. 기존 LMM 기반 접근법은 비전 작업 출력을 언어 모델의 형식에 맞추는 방식을 따르지만, 이는 다양한 비전 작업의 고유한 특성을 간과하고 있다.
Lumen은 작업 무관 및 작업 특화 학습 단계를 분리하여 이 문제를 해결한다. 첫 번째 단계에서는 비전-언어 개념 정렬을 증진시켜 다양한 비전 작업에 공통적으로 활용할 수 있는 표현을 학습한다. 두 번째 단계에서는 이 공통 표현을 가볍고 유연한 작업 디코더에 라우팅하여 다양한 작업 출력을 생성한다.
이러한 분리된 설계를 통해 Lumen은 기존 LMM 기반 접근법보다 COCO 객체 탐지 벤치마크에서 큰 성능 향상을 보였으며, 다른 비전 작업에서도 전문 모델 수준의 성능을 달성했다. 또한 광범위한 실험을 통해 Lumen의 효과와 일반화 능력을 검증했다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yang Jiao,Sh... klo arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07304.pdfSyvällisempiä Kysymyksiä