Core Concepts
異なるモダリティを組み合わせた共通表現を目指す多モーダル学習の重要性と、知識グラフの導入がモデルの性能向上や決定の透明性に与える影響に焦点を当てた調査。
Abstract
多モーダル学習の進化とTransformerフレームワークの重要性。
知識グラフの導入が実世界理解やタスク達成に及ぼす影響。
現在の課題と将来方向性について包括的な分析。
Stats
VLモデルはCOCO、Visual Genome、Conceptual Captionsなどから事前トレーニングされる。
GPT-3は1750億パラメータでゼロショット、ワンショット、ファイブショット能力を持つ。
ViLBERT、LXMERT、VisualBERTなどが複数VLタスクで最先端結果を示している。
Quotes
"Knowledge graphs and other knowledge sources can fill those gaps by explicitly providing missing information, unlocking novel capabilities of VL models."
"The current survey aims to unify the fields of VL representation learning and knowledge graphs, and provides a taxonomy and analysis of knowledge-enhanced VL models."