Khái niệm cốt lõi
本研究は、視覚-言語モデルの細粒度な画像-テキストミスマッチ検出と修正を可能にする新しいベンチマークFINEMATCHを提案する。
Tóm tắt
本研究は、視覚-言語モデルの細粒度な画像-テキストミスマッチ検出と修正を目的とした新しいベンチマークFINEMATCHを提案している。
FINEMATCHは以下の特徴を持つ:
- 4つの側面(エンティティ、関係、属性、数)に基づいて画像-テキストのミスマッチを分析する。
- GPT合成テキストデータ、検索画像-テキストデータ、Stable Diffusion生成画像データなど、複数のデータソースから構築された54,800の高品質な人手アノテーションデータを提供する。
- ミスマッチ検出と修正の2つのサブタスクを定義し、新しい評価指標ITM-IoUを提案する。
- 主要な視覚-言語モデルを用いた実験を行い、FINEMATCHがモデルの細粒度な画像-テキストマッチング能力を向上させることを示す。
- FINEMATCHを用いて、テキスト-画像生成の誤認識検出と修正システムを構築し、その有効性を示す。
全体として、FINEMATCHは視覚-言語モデルの細粒度な画像-テキストマッチング能力を評価し、向上させるための重要なリソースとなる。
Thống kê
生成されたキャプションは、人間の評価によって文法的誤りや常識的な矛盾が除去されている。
生成されたキャプションとオリジナルのキャプションの間には、Vera Scoreの差、文法Scoreの差、CLIP Scoreの差が見られるが、その範囲は許容範囲内である。
Trích dẫn
"本研究は、視覚-言語モデルの細粒度な画像-テキストミスマッチ検出と修正を目的とした新しいベンチマークFINEMATCHを提案している。"
"FINEMATCHは4つの側面(エンティティ、関係、属性、数)に基づいて画像-テキストのミスマッチを分析する。"
"FINEMATCHは複数のデータソースから構築された54,800の高品質な人手アノテーションデータを提供する。"