Kernkonzepte
事前学習された視覚モデルと大規模言語モデルを単一の線形層を用いて効率的に橋渡しする手法VLAP
Zusammenfassung
本論文は、事前学習された視覚モデルと大規模言語モデルを効率的に橋渡しする手法VLAPを提案する。VLAPは、視覚表現と言語表現を大規模言語モデルの単語埋め込みに割り当てる最適輸送問題を解くことで、両者の表現を整合させる。これにより、事前学習された視覚モデルと言語モデルを最小限の学習で連携させ、視覚言語タスクの性能を大幅に向上させる。具体的には以下の特徴がある:
- 最適輸送に基づく割り当て予測目的関数により、視覚と言語の表現を整合させる。これにより、事前学習された視覚モデルと言語モデルを効率的に連携させることができる。
- 大規模言語モデルの単語埋め込みを固定の割り当て空間として利用するため、追加の学習パラメータを必要としない。
- 学習された視覚表現が言語モデルの意味論的分類を保持するため、視覚的意味演算が可能となる。
実験では、画像キャプショニング、視覚問答、クロスモーダル検索などの視覚言語タスクで、従来手法を大幅に上回る性能を示した。また、計算コストと記憶効率も高いことを確認した。
Statistiken
画像キャプショニングでは、従来手法に比べてCIDEr-Dスコアで最大29.3%、CLIP-Scoreで最大11.4%、Ref-CLIP-Scoreで最大11.6%の改善を達成した。
視覚問答では、ゼロショットから4ショットの設定で、従来手法を大幅に上回る性能を示した。
クロスモーダル検索では、画像-テキスト間検索タスクでRecall@1で最大4.5%、Recall@5で最大4.0%、Recall@10で最大4.5%の改善を達成した。
Zitate
"VLAPは、事前学習された視覚モデルと大規模言語モデルを単一の線形層を用いて効率的に橋渡しする手法である。"
"VLAPは、視覚表現と言語表現を大規模言語モデルの単語埋め込みに割り当てる最適輸送問題を解くことで、両者の表現を整合させる。"
"学習された視覚表現が言語モデルの意味論的分類を保持するため、視覚的意味演算が可能となる。"