Die Studie untersucht die Herausforderungen beim Einsatz von Vision-Sprache-Modellen (VLMs) in ressourcenbeschränkten Umgebungen. VLMs bestehen aus großen Vision- und Sprachmodellen, die hohe Rechenressourcen benötigen.
Zunächst werden empirische Studien durchgeführt, um die optimale Verteilung der Spärlichkeit zwischen den Modellkomponenten zu finden. Es zeigt sich, dass eine gleichmäßige Verteilung der Spärlichkeit auf Vision- und Sprachmodell zu den besten Ergebnissen führt.
Anschließend wird die Methode RESSA vorgestellt, die die Leistung geprünter VLMs durch zwei Ansätze wiederherstellt:
Umfangreiche Experimente zeigen, dass RESSA die Leistung geprünter VLMs signifikant verbessern kann, z.B. um 11,3% bei 2:4-Spärlichkeit und sogar 47,6% bei 70% unstrukturierter Spärlichkeit.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Shwai He,Tia... pada arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02424.pdfPertanyaan yang Lebih Dalam