Verbesserung von Vision-Sprache-Modellen durch Negationen: Lernen, "Nein" zu sagen, um "Ja" besser zu sagen
Bestehende Vision-Sprache-Modelle (VLMs) haben Schwierigkeiten, die Auswirkungen von Negationen in Texten zu verstehen, was ihre Leistung bei der visuellen semantischen Zuordnung und Schlussfolgerung beeinträchtigt. Das vorgeschlagene CoN-CLIP-Framework verbessert das Verständnis von Negationen, indem es den kontrastiven Lernprozess um Bildunterschriften mit Negationen und ablenkende Bilder ergänzt.