Concepts de base
BRAVEは、複数の視覚エンコーダから特徴を統合することで、視覚言語モデルの性能を大幅に向上させる。
Résumé
本論文では、視覚言語モデル(VLM)の視覚エンコーダの影響を包括的に分析しています。
- 様々な視覚エンコーダを評価した結果、単一のエンコーダでは一貫して最高の性能を発揮できず、エンコーダの特性によって性能が変わることがわかりました。
- この知見を踏まえ、BRAVEという手法を提案しています。BRAVEは、複数の視覚エンコーダから特徴を統合し、より汎用的な視覚表現を生成します。
- BRAVEは、キャプショニングやVQAなどの広範なベンチマークで最先端の性能を達成し、視覚的な誤認識や外れ値への頑健性も大幅に向上させています。
- 実験的に、BRAVEが視覚エンコーダの多様性を効果的に活用できることを示しています。また、パラメータ数が少なくて済むことも特徴です。
Stats
視覚言語モデルは、言語側の問題(ホールシネーション、論理的な誤りなど)と視覚側の問題(エンコーダの能力の限界)に直面している。
単一の視覚エンコーダでは、タスクによって最高の性能を発揮できない。
BRAVEは、複数の視覚エンコーダから特徴を統合することで、より汎用的な視覚表現を生成できる。
Citations
"Vision-language models (VLMs) have recently seen significant improvements on solving tasks requiring both visual and text understanding capabilities such as captioning, visual question answering (VQA), and instruction following."
"Despite the progress, VLMs are subject to several shortcomings: on the language side, the LMs are known to be susceptible to hallucinations and logical faults, while on the vision side, they are limited by the capabilities of the vision encoder."
"Motivated by these findings, we propose to employ various vision encoders for VLMs and introduce a method to learn how to combine them efficiently. We denote the method as BRAVE, which stands for broadening the visual encoding of VLMs."