Core Concepts
画像とテキストの概念の不整合を修正する画像条件付きキャプション修正(ICCC)タスクを提案し、視覚言語モデルの零距離推論能力を向上させる。
Abstract
本研究では、視覚言語モデル(VLM)の零距離推論能力を向上させるために、画像条件付きキャプション修正(ICCC)タスクを提案している。
ICCC タスクの概要は以下の通り:
テキストの言語構造を分析し、視覚概念と言語概念の不整合を特定する
抽出した概念を用いて、画像-テキストペアのキャプションを人工的に修正する
VLMにこの修正済みキャプションを学習させることで、視覚概念と言語概念の整合性を高める
具体的な手順は以下の通り:
依存構造解析を用いて、テキストから言語概念(名詞、動詞、属性など)を抽出する
抽出した概念を用いて、画像-テキストペアのキャプションを人工的に修正する
概念を置換する "replace" 操作と、概念の順序を入れ替える "swap" 操作を行う
修正済みキャプションを用いて、VLMの微調整を行う
この手法により、VLMの視覚言語理解能力が向上し、様々な視覚言語タスクでの零距離推論性能が大幅に改善された。特に、視覚空間推論、画像キャプショニング、視覚質問応答などのタスクで顕著な性能向上が確認された。
Stats
画像-テキストペアデータセットCOCOとVisual Genomeを合わせて約100万件使用した。
修正済みキャプションの生成には、平均15%の"replace"操作と5%の"swap"操作を行った。