Wie können Rückmeldungen die semantische Verankerung in großen Vision-Sprache-Modellen verbessern?
Vision-Sprache-Modelle können ihre semantische Verankerung durch Rückmeldungen verbessern, ohne dass zusätzliche domänenspezifische Trainingsdaten, Feinabstimmung oder Änderungen an den Netzwerkarchitekturen erforderlich sind.