核心概念
Eine neuartige Methode namens Compositional Kronecker Context Optimization (CK-CoOp) wird vorgestellt, um die Generalisierungsfähigkeit von Vision-Sprache-Modellen durch strukturierte Kontextoptimierung zu verbessern.
摘要
Die Studie präsentiert eine neue Methode namens Compositional Kronecker Context Optimization (CK-CoOp) zur Verbesserung der Generalisierungsfähigkeit von Vision-Sprache-Modellen.
Kernpunkte:
- CK-CoOp strukturiert den Kontext, indem er ihn als lineare Kombination von Basisvektoren aus einem Wörterbuch darstellt. Dies ermöglicht es, mehr Vorwissen aus dem vortrainierten Modell beizubehalten und das Risiko des Overfittings zu verringern.
- Zusätzlich wird eine lernbare Bias-Matrix mit Kronecker-Struktur eingeführt, um die Darstellungsfähigkeit des Kontexts weiter zu erhöhen, ohne die Parameterzahl stark zu erhöhen.
- Umfangreiche Experimente zeigen, dass CK-CoOp den Stand der Technik in Bezug auf Basis-zu-Neu-Generalisierung, Domänengeneralisierung und Aufgabengeneralisierung übertrifft, bei gleichzeitig deutlich geringerer Parameterzahl und höherer Effizienz.
- Eine Ablationsstudie bestätigt die Wirksamkeit der Schlüsselkomponenten von CK-CoOp, wie die Kompositionsstruktur und die Kronecker-Bias-Matrix.
统计
Die Parameterzahl von CK-CoOp beträgt nur 38% der Parameterzahl von ProGrad.
Die Trainingszeit von CK-CoOp ist bis zu 75% kürzer als die von ProGrad.
Die Inferenzzeit von CK-CoOp ist bis zu 100-mal schneller als die von CoCoOp.
引用
"Eine neuartige Methode namens Compositional Kronecker Context Optimization (CK-CoOp) wird vorgestellt, um die Generalisierungsfähigkeit von Vision-Sprache-Modellen durch strukturierte Kontextoptimierung zu verbessern."
"CK-CoOp übertrifft den Stand der Technik in Bezug auf Basis-zu-Neu-Generalisierung, Domänengeneralisierung und Aufgabengeneralisierung, bei gleichzeitig deutlich geringerer Parameterzahl und höherer Effizienz."