本研究は、ビジョン言語モデルの設計における重要な決定事項について実験的に検討している。主な内容は以下の通り:
事前学習モデルの選択: 言語モデルのバックボーンの選択がビジョン言語モデルのパフォーマンスに大きな影響を与えることを示した。より優れた言語モデルを使用することで、ビジョン言語タスクの成績が大幅に向上する。
アーキテクチャの比較: 完全自己回帰型アーキテクチャは、クロスアテンション型アーキテクチャよりも優れたパフォーマンスを示すが、訓練の安定性を確保するためにはパラメータ効率的な微調整手法が必要である。
効率性の向上: 学習済みビジョンエンコーダの適応と可変解像度の画像処理により、推論コストを大幅に削減しつつ、ダウンストリームタスクのパフォーマンスを維持できることを示した。
計算コストとパフォーマンスのトレードオフ: 画像のサブ画像への分割により、テキスト読み取りタスクのパフォーマンスを大幅に向上させることができる。
これらの知見に基づき、8B パラメータのビジョン言語モデル Idefics2 を開発した。Idefics2 は同サイズ帯の他のモデルを上回る性能を示し、さらに大規模モデルと肩を並べるパフォーマンスを達成している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä