CLIP 사전 학습 Mamba 모델은 파라미터 효율성이 높으며, OOD 환경에서 우수한 일반화 성능을 보인다. 그러나 Mamba 모델의 학습 landscape는 ViT 모델에 비해 더 비볼록적이고 sharp하여 최적화가 어려울 수 있다.