Core Concepts
Supervised Feinabstimmung (ViSFT) kann die Leistung von visuellen Grundlagenmodellen über verschiedene Benchmarks hinweg verbessern.
Abstract
Der Artikel untersucht den Einsatz von supervised fine-tuning (ViSFT), um die Leistung von visuellen Grundlagenmodellen zu verbessern. Bisher wurde das Bild-Text-Lernen wie CLIP als Hauptansatz für das Vortraining von visuellen Grundlagenmodellen verwendet. Allerdings haben Bemühungen, regionsbasiertes visuelles Lernen in den CLIP-Vortrainingsprozess einzuführen, Skalierbarkeitsherausforderungen aufgrund des Mangels an großen regionsspezifischen Datensätzen.
Der Artikel präsentiert einen zweistufigen ViSFT-Ansatz, um das feinkörnige Wissen visueller Grundlagenmodelle freizusetzen. In der ersten Stufe werden die Kopfmodule für verschiedene domänenspezifische Aufgaben wie Objekterkennung, Segmentierung und Bildbeschriftung unabhängig trainiert, um kompatible Kopfmodule zu erhalten. In der zweiten Stufe wird das visuelle Transformator-Rückgrat mit LoRA-Gewichten erweitert und gemeinsam auf den Aufgaben feinabgestimmt, um das feinkörnige Wissen ausschließlich in den LoRA-Parametern zu speichern.
Die Experimente zeigen, dass ViSFT die Leistung eines CLIP-Transformators mit über 4,4 Milliarden Parametern über verschiedene Benchmarks in visuellen und sprachlich-visuellen Szenarien hinweg verbessern kann, ohne den Textkodierer von CLIP feinabzustimmen. Die Ergebnisse deuten darauf hin, dass ViSFT dem visuellen Transformator hilft, einen optimalen Unterraum zu identifizieren.
Stats
Die Modelle EVA-ViT-G und EVA-ViT-E haben über 1 Milliarde Parameter.
Der Rang der LoRA-Gewichte wurde auf 64 gesetzt, was zu einer Parametergröße von 29,4 Millionen führt.
Das Training auf 8 V100-SXM2-32GB-GPUs in weniger als 2 Tagen durchgeführt.
Quotes
"ViSFT ist in der Lage, feinkörnige Details innerhalb des visuellen Transformators freizusetzen, die während des Bild-Text-Vortrainings möglicherweise übersehen wurden."
"Wir spekulieren, dass diese Methode dem visuellen Transformator hilft, einen optimalen Unterraum zu identifizieren."