本レポートでは、NICE Challenge 2024のキャプション再ランキング評価タスクに対して提案されたECO(Ensembled Clip score and cOnsensus score)フレームワークについて説明する。
ECOフレームワークは、以下の2つのスコアリングアルゴリズムから構成される:
Ensembled CLIP score: 複数のCLIPモデルを組み合わせて計算した、画像とキャプションの意味的な整合性を表すスコア。
Consensus score: キャプション候補間の比較から導出した、キャプションの必須性を表すスコア。
これらのスコアを組み合わせることで、画像を最適に説明するキャプションを選択する。
さらに、不適切なフォーマットのキャプションや画像と関連性の低いキャプションを除外するためのフィルタリング手法を導入している。
最終的に、Ensembled CLIP scoreとConsensus scoreを適切に組み合わせ、必要に応じて短いキャプションを選択することで、NICE Challenge 2024のキャプション再ランキング評価タスクにおいて優れた成績を収めることができた。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Kiyoon Jeong... о arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01028.pdfГлибші Запити