本論文は、事前学習された視覚モデルと大規模言語モデルを効率的に橋渡しする手法VLAPを提案する。VLAPは、視覚表現と言語表現を大規模言語モデルの単語埋め込みに割り当てる最適輸送問題を解くことで、両者の表現を整合させる。これにより、事前学習された視覚モデルと言語モデルを最小限の学習で連携させ、視覚言語タスクの性能を大幅に向上させる。具体的には以下の特徴がある:
実験では、画像キャプショニング、視覚問答、クロスモーダル検索などの視覚言語タスクで、従来手法を大幅に上回る性能を示した。また、計算コストと記憶効率も高いことを確認した。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jungin Park,... alle arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09632.pdfDomande più approfondite