Die Studie untersucht die Herausforderungen beim Einsatz von Vision-Sprache-Modellen (VLMs) in ressourcenbeschränkten Umgebungen. VLMs bestehen aus großen Vision- und Sprachmodellen, die hohe Rechenressourcen benötigen.
Zunächst werden empirische Studien durchgeführt, um die optimale Verteilung der Spärlichkeit zwischen den Modellkomponenten zu finden. Es zeigt sich, dass eine gleichmäßige Verteilung der Spärlichkeit auf Vision- und Sprachmodell zu den besten Ergebnissen führt.
Anschließend wird die Methode RESSA vorgestellt, die die Leistung geprünter VLMs durch zwei Ansätze wiederherstellt:
Umfangreiche Experimente zeigen, dass RESSA die Leistung geprünter VLMs signifikant verbessern kann, z.B. um 11,3% bei 2:4-Spärlichkeit und sogar 47,6% bei 70% unstrukturierter Spärlichkeit.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shwai He,Tia... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02424.pdfDeeper Inquiries