Dieses Papier präsentiert PCME++, eine verbesserte probabilistische Methode zur Bild-Text-Abbildung, die eine neue probabilistische Distanz mit einer geschlossenen Lösung einführt und zwei Optimierungstechniken zur Verbesserung der Leistung unter massiven falschen Negativen vorschlägt.
Unser Verfahren zur Feinabstimmung von CLIP-Modellen adressiert die kritische Verzerrung auf einen einzelnen Tag, indem es die Beziehung zwischen Bild und Text durch eine neuartige Methode zur Auswahl relevanter Tags aus dem Text und eine Selbstdistillationsstrategie verbessert.
Durch den Einsatz von Benutzerrückmeldungen können Modelle für instruktionsbasierte Bildbearbeitung deutlich verbessert werden, um die Präferenzen der Nutzer besser widerzuspiegeln.