Die Studie untersucht die Herausforderungen beim Einsatz von Vision-Sprache-Modellen (VLMs) in ressourcenbeschränkten Umgebungen. VLMs bestehen aus großen Vision- und Sprachmodellen, die hohe Rechenressourcen benötigen.
Zunächst werden empirische Studien durchgeführt, um die optimale Verteilung der Spärlichkeit zwischen den Modellkomponenten zu finden. Es zeigt sich, dass eine gleichmäßige Verteilung der Spärlichkeit auf Vision- und Sprachmodell zu den besten Ergebnissen führt.
Anschließend wird die Methode RESSA vorgestellt, die die Leistung geprünter VLMs durch zwei Ansätze wiederherstellt:
Umfangreiche Experimente zeigen, dass RESSA die Leistung geprünter VLMs signifikant verbessern kann, z.B. um 11,3% bei 2:4-Spärlichkeit und sogar 47,6% bei 70% unstrukturierter Spärlichkeit.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shwai He,Tia... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02424.pdfYêu cầu sâu hơn