Concepts de base
Large Vision-Language Models struggle with fine-grained visual categorization due to a modality gap, hindering accurate attribute generation.
Stats
最新のLVLMは、画像に基づいた説明で優れていますが、細かい視覚的分類で失敗しています。
提案されたFINERベンチマークは、LVLMの細かい理解と説明可能性を評価することを目的としています。
モダリティギャップがLVLMを阻害し、正確な分類のためのテキスト知識を活用することができません。
属性生成付きの指示チューニングは、LVLMのFGVCタスクでのパフォーマンスを向上させます。