Core Concepts
Eine effiziente und effektive Methode zum Feinabstimmen von Vision-Foundation-Modellen in ein gemischtes Präzisions-Supernet durch Verwendung von Low-Rank-Adaptern, um die Bitoperationen (BitOPs) erheblich zu reduzieren, ohne Leistungseinbußen zu verursachen.
Abstract
Der Artikel befasst sich mit der effizienten und effektiven Feinabstimmung von großen und leistungsfähigen Vision-Foundation-Modellen (VFMs) in ein gemischtes Präzisions-Supernet.
Zunächst wird eine Analyse des Suchraum-Designs für das Feinabstimmen von VFMs durchgeführt. Es werden verschiedene Operatoren wie Auflösung, Merkmalgröße, Breite, Tiefe und Bitbreiten untersucht. Die Ergebnisse zeigen, dass Operatoren, die die Merkmale weniger beeinflussen, wie Auflösung, Tiefe und Bitbreiten, bessere Kompromisse zwischen Leistung und BitOPs erzielen.
Anschließend wird eine speichereffiziente und effektive Feinabstimmungsmethode mit Low-Rank-Adaptern (LoRA) vorgeschlagen. Um die Herausforderungen des Gradienten-Konflikts und der begrenzten Darstellungskapazität bei Ultra-Low-Bit-Breiten-Subnetzen zu adressieren, werden multi-pfad-basierte LoRA-Architekturen entwickelt. Außerdem wird eine allgemeine Form von quantisierungsbasiertem LoRA eingeführt, um die gemischte Präzision zu unterstützen.
Schließlich wird eine progressive Trainingsstrategie vorgeschlagen, um die Leistung der Ultra-Low-Bit-Breiten-Subnetze weiter zu verbessern. Die Evaluierung zeigt, dass die vorgeschlagene Methode etwa 1,69% und 3,12% besser als der Stand der Technik ist, bei gleichzeitiger Reduzierung des Speicherbedarfs um etwa 18%. Darüber hinaus erzielt das gesuchte Subnetz eine Reduzierung der BitOPs um etwa 95%, ohne Leistungseinbußen zu verursachen.
Stats
Die Segment Anything Model (SAM) hat etwa 3000T BitOPs für den Bildencoder.
Die Segment Anything Model (SAM) benötigt mindestens 48 GB Grafikspeicher für das Training des gemischten Präzisions-Suchraums.
Das vorgeschlagene Verfahren reduziert die BitOPs um etwa 95%, ohne Leistungseinbußen zu verursachen.
Quotes
"Compression of large and performant vision foundation models (VFMs) into arbitrary bit-wise operations (BitOPs) allows their deployment on various hardware."
"We propose to fine-tune a VFM to a mixed-precision quantized supernet."
"The proposed method is evaluated for the recently proposed VFM, Segment Anything Model, fine-tuned on segmentation tasks. The searched model yields about a 95% reduction in BitOPs without incurring performance degradation."