この論文では、Vision Language Model(VLM)による画像キャプションの自動評価方法であるVisCE2が紹介されています。VisCE2は、画像の視覚的コンテキストを抽出し、VLMが画像をより良く理解し、候補のキャプションが画像をどれだけ正確に記述しているかを評価します。実験では、VisCE2が従来のメトリクスよりも優れたパフォーマンスを示し、人間の判断と高い一致性があることが確認されました。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések