核心概念
Effiziente Anpassung großer visuell-sprachlicher Modelle an Edge-Geräte über verschiedene visuelle Modalitäten.
統計
EdgeVL (Swin-T) erreicht eine Genauigkeit von 47,9% auf ScanNet und 52,0% auf EuroSAT.
Modellgröße von EdgeVL (Swin-T) beträgt 56 MB.
Latenz von EdgeVL (Swin-T) beträgt 5,2 ms auf AGX, 11,4 ms auf Nano und 1098 Bilder/s auf RTX4090.
引用
"EdgeVL ist der erste Rahmen, der die Anpassung großer VL-Modelle für Edge-Geräte systematisch angeht."
"Wir stellen eine Methode vor, um die visuell-sprachliche Ausrichtung von vorab trainierten VL-Modellen auf kompakte visuelle Modelle für RGB- und nicht-RGB-Bilder zu übertragen, ohne auf Annotationen angewiesen zu sein."