Die Studie untersucht die Herausforderungen beim Einsatz von Vision-Sprache-Modellen (VLMs) in ressourcenbeschränkten Umgebungen. VLMs bestehen aus großen Vision- und Sprachmodellen, die hohe Rechenressourcen benötigen.
Zunächst werden empirische Studien durchgeführt, um die optimale Verteilung der Spärlichkeit zwischen den Modellkomponenten zu finden. Es zeigt sich, dass eine gleichmäßige Verteilung der Spärlichkeit auf Vision- und Sprachmodell zu den besten Ergebnissen führt.
Anschließend wird die Methode RESSA vorgestellt, die die Leistung geprünter VLMs durch zwei Ansätze wiederherstellt:
Umfangreiche Experimente zeigen, dass RESSA die Leistung geprünter VLMs signifikant verbessern kann, z.B. um 11,3% bei 2:4-Spärlichkeit und sogar 47,6% bei 70% unstrukturierter Spärlichkeit.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Shwai He,Tia... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02424.pdfPerguntas Mais Profundas