Core Concepts
Existing models struggle with language compositionality, but CLoVe framework significantly improves it while maintaining performance on other tasks.
Abstract
近年、Vision and Languageタスクの性能が向上している。しかし、既存のモデルは言語の組成能力に苦しんでおり、CLoVeフレームワークはこれを大幅に改善する。このフレームワークは、合成キャプションを活用し、困難な構成性ベンチマークで10%以上の絶対的な改善を実現する。さらに、他のタスクでのパフォーマンスも維持している。
Stats
CLIP+CLOVE w/o patching: 69.0% SugarCrepe, 77.4% ARO VG-Relation, 91.7% ARO VG-Attribution, 93.6% ARO COCO-Order.
NegCLIP: 70.5% SugarCrepe, 80.1% ARO VG-Relation, 87.0% ARO VG-Attribution, 90.9% ARO COCO-Order.
REPLACE: 71.2% SugarCrepe, 72.9% ARO VG-Relation, 80.1% ARO VG-Attribution, 86.7% ARO COCO-Order.
Quotes
"Our code and pre-trained models are publicly available at https://github.com/netflix/clove."
"In this paper, we introduce a framework to significantly improve the ability of existing models to encode compositional language."
"No evidence exists that any VLM identifies compositions successfully."