本研究では、LLMラッパーと呼ばれる新しい手法を提案している。LLMラッパーは、大規模言語モデル(LLM)を使用して視覚言語基盤モデル(VLM)の出力を推論することで、VLMのゼロショット性能を大幅に向上させる。
従来の手法では、VLMをタスク固有のデータセットで微調整する必要があり、モデルの内部構造とパラメータへのアクセスが必要だった。一方、LLMラッパーは、VLMの出力のみを使用し、モデルの内部構造に依存しない黒箱アプローチを取る。
LLMラッパーは、参照表現理解(REC)タスクで評価され、さまざまなVLMとLLMの組み合わせで大幅な性能向上を示した。また、LLMラッパーは、異なるVLMの出力を組み合わせることで、それぞれの長所を活かすことができることも示された。さらに、LLMラッパーの学習は、一つのVLMから別のVLMに容易に転用できることが確認された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Amai... lúc arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.11919.pdfYêu cầu sâu hơn