[V]-Mamba는 선형 프로빙 방식으로 전이 학습을 수행할 때 Vision Transformer(ViT)보다 우수하거나 동등한 성능을 보이지만, 시각적 프롬프팅 방식으로 전이 학습을 수행할 때는 ViT보다 약한 성능을 보인다. 또한 [V]-Mamba 모델 크기가 증가할수록 선형 프로빙과 시각적 프롬프팅 간 성능 격차가 약간 증가하는 경향이 있다.