最近の大規模言語モデルの成功により、ビジュアル言語モデル(VLMs)は急速に進化しています。本研究では、VLMの事前トレーニング設計オプションを探索し、LLMを拡張してVLMに向けた効果的な方法を提供します。主な発見は次のとおりです:1)LLMを凍結して事前トレーニングすることでまずまずのゼロショット性能が得られますが、コンテキスト学習能力が不足しており、LLMを解凍する必要があります。2)交互に配置された画像テキストデータは有益であり、画像テキストペアだけでは最適ではありません。3)SFT中にテキスト専用指示データを追加することで、テキスト専用タスクの劣化を補正し、VLMタスクの精度も向上させます。これらの発見から、改良された事前トレーニング手法であるVILAを構築しました。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ji Lin,Hongx... alle arxiv.org 03-06-2024
https://arxiv.org/pdf/2312.07533.pdfDomande più approfondite