이 논문은 비전-언어 모델(VLM)의 시각적 인코딩 능력을 확장하는 방법을 제안한다.
먼저, 다양한 비전 인코더를 사용하는 VLM을 종합적으로 평가했다. 그 결과, 단일 비전 인코더로는 모든 과제에서 최고 성능을 달성할 수 없으며, 서로 다른 편향을 가진 인코더들도 유사한 성능을 보일 수 있음을 발견했다.
이를 바탕으로 BRAVE라는 방법을 제안했다. BRAVE는 다양한 비전 인코더의 특징을 효율적으로 통합하여 더 강력하고 다양한 시각적 표현을 생성한다. 이를 통해 BRAVE는 캡셔닝, VQA 등 다양한 벤치마크에서 최신 성과를 달성하고, 시각적 환각 및 분포 외 입력에 대한 강건성을 크게 향상시켰다.
또한 BRAVE는 기존 방법들에 비해 훨씬 적은 수의 학습 가능 매개변수를 사용하면서도 우수한 성능을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問