Effiziente Anpassung großer visuell-sprachlicher Modelle an Edge-Geräte über verschiedene visuelle Modalitäten.