大規模言語モデルと視覚モデルを融合した視覚言語モデルは、画像キャプショニングや視覚質問応答などの複雑なタスクに優れた性能を発揮する。本論文では、これらの視覚言語モデルを理解・生成能力に基づいて3つのカテゴリに分類し、各モデルの特徴や性能を詳細に分析する。