Effiziente Übertragung von [V]-Mamba-Modellen: Eine Analyse der Leistungsfähigkeit im Vergleich zu Vision Transformers
[V]-Mamba-Modelle zeigen entweder überlegene oder vergleichbare Fähigkeiten im Few-Shot-Lernen im Vergleich zu Vision Transformers, wenn sie über lineares Probing übertragen werden. Allerdings sind sie beim Einsatz von Visual Prompting schwächer oder äquivalent zu Vision Transformers. Außerdem besteht eine schwache positive Korrelation zwischen der Leistungslücke beim Übertragen über lineare Probing und Visual Prompting und der zunehmenden Skalierung des [V]-Mamba-Modells.