Bestehende Vision-Sprache-Modelle (VLMs) haben Schwierigkeiten, die Auswirkungen von Negationen in Texten zu verstehen, was ihre Leistung bei der visuellen semantischen Zuordnung und Schlussfolgerung beeinträchtigt. Das vorgeschlagene CoN-CLIP-Framework verbessert das Verständnis von Negationen, indem es den kontrastiven Lernprozess um Bildunterschriften mit Negationen und ablenkende Bilder ergänzt.
DREAMLLM ist ein Lernrahmenwerk, das erstmals leistungsfähige Multimodale Großsprachmodelle (MLLMs) mit einer häufig übersehenen Synergie zwischen multimodalem Verständnis und Erstellung ermöglicht.
UniCode, ein neuartiger Ansatz für multimodale Großsprachmodelle, lernt ein einheitliches Codebuch, um visuelle, textuelle und möglicherweise andere Signale effizient zu tokenisieren.
Durch Präferenzlernen mit selbstgenerierten negativen Beispielen können die Verzerrungen von Multimodalen Großsprachmodellen, die aus der Vortrainingsphase stammen, effektiv unterdrückt werden, was zu einer verbesserten Verankerung in visuellen Eingaben führt.