Effiziente Textbasierte Klassenbewusste Prompt-Feinabstimmung für Visuelle-Sprache-Modelle
Die Textbasierte Klassenbewusste Prompt-Feinabstimmung (TCP) ermöglicht eine effiziente Anpassung von vortrainierten visuell-sprachlichen Modellen an verschiedene Downstream-Aufgaben, indem sie explizit Klassenwissen in die lernbaren Prompt-Token integriert, um die Diskriminierungsfähigkeit und Generalisierung zu verbessern.