マルチモーダル大規模言語モデル(MLLM)は、極めて類似した画像間の微細な視覚的違いを独立して検出し、それを記述することが困難である。
大規模言語モデルと視覚モデルを融合した視覚言語モデルは、画像キャプショニングや視覚質問応答などの複雑なタスクに優れた性能を発揮する。本論文では、これらの視覚言語モデルを理解・生成能力に基づいて3つのカテゴリに分類し、各モデルの特徴や性能を詳細に分析する。
視覚言語モデルには有害な社会属性バイアスが存在するが、従来の研究は単一の属性に着目しがちであり、交差属性バイアスの調査は困難であった。本研究では、テキスト生成型ディフュージョンモデルを活用して大規模な交差属性の擬似事例を生成し、それを用いて視覚言語モデルの交差属性バイアスを包括的に調査・軽減する手法を提案する。
BRAVEは、複数の視覚エンコーダから特徴を統合することで、視覚言語モデルの性能を大幅に向上させる。
Vision-Language Modelsは、適切なフィードバックを受け取ることで、追加のデータ、微調整、またはネットワーク構造の変更なしに、意味的基盤を改善できる可能性がある。
視覚言語モデルを使用して、人間が理解可能な概念に基づいてビジョンモデルを分析する手法を提案する。
提案手法X-MICは、凍結された視覚言語モデルの表現空間に直接エゴセントリックビデオ固有の知識を注入することで、微細なクロスデータセット認識性能を大幅に向上させる。
大規模な言語モデルによる細粒度カテゴリの記述を活用することで、視覚言語モデルのゼロショット分類性能を大幅に向上させることができる。
疎な視覚言語モデルの性能を回復するために、交差モダリティ適応とSparseLoRAファインチューニングを提案する。
視覚と言語モデルは、文字の音声的特徴と視覚的意味の間に非自明な関連性を学習している。