Core Concepts
画像とキャプションの意味的な整合性と、キャプションの必須性の両方を考慮することで、最適なキャプションを選択する。
Abstract
本レポートでは、NICE Challenge 2024のキャプション再ランキング評価タスクに対して提案されたECO(Ensembled Clip score and cOnsensus score)フレームワークについて説明する。
ECOフレームワークは、以下の2つのスコアリングアルゴリズムから構成される:
Ensembled CLIP score: 複数のCLIPモデルを組み合わせて計算した、画像とキャプションの意味的な整合性を表すスコア。
Consensus score: キャプション候補間の比較から導出した、キャプションの必須性を表すスコア。
これらのスコアを組み合わせることで、画像を最適に説明するキャプションを選択する。
さらに、不適切なフォーマットのキャプションや画像と関連性の低いキャプションを除外するためのフィルタリング手法を導入している。
最終的に、Ensembled CLIP scoreとConsensus scoreを適切に組み合わせ、必要に応じて短いキャプションを選択することで、NICE Challenge 2024のキャプション再ランキング評価タスクにおいて優れた成績を収めることができた。
Stats
画像とキャプションの意味的な整合性を表すEnsembled CLIP scoreは、通常のCLIPスコアよりも負の値を保持することで、より詳細な分布を得ることができる。
Consensus scoreの最大値は、Ensembled CLIP scoreの約3倍大きい。このため、両スコアを等しい重みで組み合わせると、Consensus scoreが支配的になる。
Consensus scoreを3.52倍重視することで、両スコアの影響が適切にバランスされる。