TaskCLIP: Effiziente Erweiterung großer Bild-Sprache-Modelle für aufgabenorientierte Objekterkennung
TaskCLIP ist ein zweistufiges Modell, das allgemeine Objekterkennung mit aufgabengeleiteter Objektauswahl kombiniert. Es nutzt leistungsfähige Bild-Sprache-Modelle als Rückgrat und kalibriert deren Bild- und Texteinbettungen neu, um eine präzisere Zuordnung zwischen Objekten und Aufgabenanforderungen zu ermöglichen.