Core Concepts
現代のモデルは、タスクに対する強力なパフォーマンスを示す一方で、フレーズグラウンディング能力が不十分であり、タスクとの関連性が低いことが明らかになりました。
Abstract
自然言語を理解し、画像領域に関連付ける能力は重要です。提案された枠組みは、タスクパフォーマンスとフレーズグラウンディングの関係を研究しました。実験結果は、現代のモデルがフレーズを正確に地域にマッピングすることでタスクパフォーマンスを向上させることを示しています。
Stats
ViLT (Kim et al., 2021) による平均IoU: 39.45
MDETR (Kamath et al., 2021) の平均IoU: 42.97
Quotes
"現代のモデルは、タスクに対する強力なパフォーマンスを示す一方で、フレーズグラウンディング能力が不十分であり、タスクとの関連性が低いことが明らかになりました。"
"提案された枠組みは、タスクパフォーマンスとフレーズグラウンディングの関係を研究しました。"