Effizientes Finetuning von Vision-Language-Modellen unter Beibehaltung der Out-of-Distribution-Generalisierung
Unser Ziel ist es, ein Vision-Language-Modell ohne Beeinträchtigung seiner Out-of-Distribution-Generalisierung feinzustimmen. Wir verwenden zwei Arten von Ankern, um den Feinabstimmungsprozess zu regulieren und die ursprüngliche Merkmalsstruktur des Modells beizubehalten.