視覚言語モデル

Connexion

Idée - 視覚言語モデル

視覚的な微妙な違いを検出し、記述し、識別する: VQAを超えるMLLM評価へ

マルチモーダル大規模言語モデル(MLLM)は、極めて類似した画像間の微細な視覚的違いを独立して検出し、それを記述することが困難である。

大規模言語モデルと視覚モデルの融合：現状と今後の展望

大規模言語モデルと視覚モデルを融合した視覚言語モデルは、画像キャプショニングや視覚質問応答などの複雑なタスクに優れた性能を発揮する。本論文では、これらの視覚言語モデルを理解・生成能力に基づいて3つのカテゴリに分類し、各モデルの特徴や性能を詳細に分析する。

視覚言語モデルにおける交差属性バイアスの調査と軽減

視覚言語モデルには有害な社会属性バイアスが存在するが、従来の研究は単一の属性に着目しがちであり、交差属性バイアスの調査は困難であった。本研究では、テキスト生成型ディフュージョンモデルを活用して大規模な交差属性の擬似事例を生成し、それを用いて視覚言語モデルの交差属性バイアスを包括的に調査・軽減する手法を提案する。

視覚言語モデルの視覚エンコーディングの拡張 - BRAVEによる性能向上

BRAVEは、複数の視覚エンコーダから特徴を統合することで、視覚言語モデルの性能を大幅に向上させる。

フィードバックを使ってVision-Language Modelsの意味的基盤を強化できるか

Vision-Language Modelsは、適切なフィードバックを受け取ることで、追加のデータ、微調整、またはネットワーク構造の変更なしに、意味的基盤を改善できる可能性がある。

視覚言語モデルを使用したニューラルネットワークの概念ベース分析

視覚言語モデルを使用して、人間が理解可能な概念に基づいてビジョンモデルを分析する手法を提案する。

視覚言語モデルの汎用性を高めるための効果的なクロスモーダルアダプテーション手法

提案手法X-MICは、凍結された視覚言語モデルの表現空間に直接エゴセントリックビデオ固有の知識を注入することで、微細なクロスデータセット認識性能を大幅に向上させる。

視覚言語モデルのゼロショット分類性能を言語モデルの記述を活用して改善する

大規模な言語モデルによる細粒度カテゴリの記述を活用することで、視覚言語モデルのゼロショット分類性能を大幅に向上させることができる。

視覚言語モデルの疎な構造を修復する: 疎な交差モダリティ適応による手法

疎な視覚言語モデルの性能を回復するために、交差モダリティ適応とSparseLoRAファインチューニングを提案する。

視覚と言語モデルにおける音象徴性

視覚と言語モデルは、文字の音声的特徴と視覚的意味の間に非自明な関連性を学習している。

À propos

Produits | Ressources

Idées