核心概念
大規模言語モデルにマルチモーダルな外部知識を統合することで、視覚言語タスクにおける応答の精度と適切性を向上させる。
要約
本研究では、大規模言語モデル(LLM)にマルチモーダルな外部知識を統合することで、視覚言語タスクの性能を向上させる手法「Wiki-LLaVA」を提案している。
具体的には以下の通り:
- 大規模言語モデルの入力に、階層的な情報検索によって得られた関連文書を追加することで、外部知識を活用する。
- 画像を入力として、まず関連する Wikipedia記事を検索し、次にその記事の中から適切な段落を抽出する。
- これらの検索結果を大規模言語モデルの入力に加えることで、視覚言語タスクにおける応答の精度と適切性が向上する。
- 提案手法を Encyclopedic-VQAおよびInfoSeekデータセットで評価し、外部知識を活用することで大幅な性能向上が得られることを示した。
- また、提案手法は大規模言語モデルの既存の性能を維持しつつ、外部知識を活用できるため、汎用性の高い手法であると言える。
統計
画像と関連するWikipedia記事のタイトルの類似度が高いほど、正解のエンティティを上位に検索できる確率が高い。
Encyclopedic-VQAデータセットでは上位50件の中に正解が含まれる確率が17.5%だが、InfoSeekデータセットでは78.4%と高い。
外部知識を活用することで、Encyclopedic-VQAの正解率は23.3%から39.2%に、InfoSeekでは17.9%から51.5%に向上した。
引用
"大規模言語モデルにマルチモーダルな外部知識を統合することで、視覚言語タスクにおける応答の精度と適切性を向上させる。"
"提案手法は大規模言語モデルの既存の性能を維持しつつ、外部知識を活用できるため、汎用性の高い手法である。"