이 논문은 비전-언어 모델(VLM)의 시각적 인코딩 능력을 확장하는 방법을 제안한다.
먼저, 다양한 비전 인코더를 사용하는 VLM을 종합적으로 평가했다. 그 결과, 단일 비전 인코더로는 모든 과제에서 최고 성능을 달성할 수 없으며, 서로 다른 편향을 가진 인코더들도 유사한 성능을 보일 수 있음을 발견했다.
이를 바탕으로 BRAVE라는 방법을 제안했다. BRAVE는 다양한 비전 인코더의 특징을 효율적으로 통합하여 더 강력하고 다양한 시각적 표현을 생성한다. 이를 통해 BRAVE는 캡셔닝, VQA 등 다양한 벤치마크에서 최신 성과를 달성하고, 시각적 환각 및 분포 외 입력에 대한 강건성을 크게 향상시켰다.
또한 BRAVE는 기존 방법들에 비해 훨씬 적은 수의 학습 가능 매개변수를 사용하면서도 우수한 성능을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Oğuz... alle arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07204.pdfDomande più approfondite