Untersuchung und Verbesserung der feingranularen visuellen Konzepterkennung in großen Vision-Sprache-Modellen
Große Vision-Sprache-Modelle (LVLMs) zeigen erhebliche Leistungseinbußen bei der feingranularen visuellen Kategorisierung (FGVC) trotz ihrer starken Fähigkeiten bei der Bildunterschrift, visuellen Begründung und Textgenerierung.