Keskeiset käsitteet
RESSA nutzt Cross-Modality-Feinabstimmung und SparseLoRA, um die Leistung von geprünten Vision-Sprache-Modellen signifikant zu verbessern.
Tiivistelmä
Die Studie untersucht die Herausforderungen beim Einsatz von Vision-Sprache-Modellen (VLMs) in ressourcenbeschränkten Umgebungen. VLMs bestehen aus großen Vision- und Sprachmodellen, die hohe Rechenressourcen benötigen.
Zunächst werden empirische Studien durchgeführt, um die optimale Verteilung der Spärlichkeit zwischen den Modellkomponenten zu finden. Es zeigt sich, dass eine gleichmäßige Verteilung der Spärlichkeit auf Vision- und Sprachmodell zu den besten Ergebnissen führt.
Anschließend wird die Methode RESSA vorgestellt, die die Leistung geprünter VLMs durch zwei Ansätze wiederherstellt:
- Cross-Modality-Feinabstimmung: Zielgerichtete Feinabstimmung auf Aufgabenleistung und Wissenstransfer vom Originalmodell
- SparseLoRA: Erweiterung von LoRA-Feinabstimmung, um die Spärlichkeit der Modelle zu erhalten
Umfangreiche Experimente zeigen, dass RESSA die Leistung geprünter VLMs signifikant verbessern kann, z.B. um 11,3% bei 2:4-Spärlichkeit und sogar 47,6% bei 70% unstrukturierter Spärlichkeit.
Tilastot
Bei 50% Spärlichkeit erreicht das reparierte Modell mit RESSA eine durchschnittliche Punktzahl von 64,0, verglichen mit 61,2 für das unreparierte Modell.
Bei 2:4-Spärlichkeit erreicht das reparierte Modell mit RESSA eine durchschnittliche Punktzahl von 56,8, verglichen mit 46,3 für das unreparierte Modell.
Bei 4:8-Spärlichkeit erreicht das reparierte Modell mit RESSA eine durchschnittliche Punktzahl von 58,5, verglichen mit 52,2 für das unreparierte Modell.
Lainaukset
"RESSA nutzt Cross-Modality-Feinabstimmung, um die aufgabenspezifische Leistung zu verbessern und den Wissenstransfer vom Originalmodell zu erleichtern."
"SparseLoRA wendet Spärlichkeit direkt auf LoRA-Gewichte an, was eine nahtlose Integration mit geprünten Modellen ermöglicht."