Core Concepts
画像の詳細な説明を生成するためのピラミッド型手法を提案し、その理論的根拠と実験的評価を示す。
Abstract
本研究では、画像キャプション生成の新しい理論的枠組みを提案しています。この枠組みでは、タスクの十分性、冗長性の最小化、人間の解釈可能性の3つの目的を定義しています。
この理論的基盤に基づき、ピラミッド型キャプション(PoCa)手法を提案しています。PoCaは、画像を局所パッチに分割し、それぞれのパッチに対してキャプションを生成し、大規模言語モデルを使ってそれらを統合することで、詳細で正確なキャプションを生成します。
理論的な証明と実験的評価から、PoCaは一貫して画像キャプションの質を向上させ、情報量が多く、意味的に正確で、文脈に沿った簡潔で解釈しやすいキャプションを生成することが示されています。VQA-v2データセットでは最大2.10%の精度向上、画像段落キャプションデータセットではCLIPScoreで最大2.3%、METEORスコアで最大4.29%の向上が確認されました。
本研究は、画像キャプション生成の質の向上に貢献し、今後の研究と応用のための堅固な基盤を提供しています。
Stats
画像キャプションモデルMobileVLM-v2-1.7Bのデフォルトキャプションの平均単語数は54.1、PoCaキャプションは78.2単語
画像キャプションモデルLLaVA-1.5-7Bのデフォルトキャプションの平均単語数は82.7、PoCaキャプションは74.7単語
画像キャプションモデルInternVLのデフォルトキャプションの平均単語数は158.3、PoCaキャプションは93.4単語