Core Concepts
[V]-Mamba는 선형 프로빙 방식으로 전이 학습을 수행할 때 Vision Transformer(ViT)보다 우수하거나 동등한 성능을 보이지만, 시각적 프롬프팅 방식으로 전이 학습을 수행할 때는 ViT보다 약한 성능을 보인다. 또한 [V]-Mamba 모델 크기가 증가할수록 선형 프로빙과 시각적 프롬프팅 간 성능 격차가 약간 증가하는 경향이 있다.
Abstract
이 연구는 Vision Transformer(ViT)와 [V]-Mamba 모델 간 적은 데이터 환경에서의 전이 학습 성능을 비교 분석하였다. 두 가지 전이 학습 방식, 즉 선형 프로빙(LP)과 시각적 프롬프팅(VP)을 사용하여 실험을 진행하였다.
실험 결과, [V]-Mamba는 선형 프로빙 방식으로 전이 학습을 수행할 때 ViT보다 우수하거나 동등한 성능을 보였다. 반면, 시각적 프롬프팅 방식으로 전이 학습을 수행할 때는 ViT보다 약한 성능을 보였다.
또한 [V]-Mamba 모델 크기가 증가할수록 선형 프로빙과 시각적 프롬프팅 간 성능 격차가 약간 증가하는 경향이 관찰되었다. 이는 모델 크기 증가에 따른 시각적 프롬프팅의 상대적 약화를 시사한다.
이 연구 결과는 [V]-Mamba 모델의 전이 학습 특성을 이해하고 개선하는 데 기반이 될 것으로 기대된다.
Stats
[V]-Mamba는 선형 프로빙 방식으로 전이 학습을 수행할 때 ViT 대비 최대 60.45%의 성능 향상을 보였다.
시각적 프롬프팅 방식으로 전이 학습을 수행할 때 [V]-Mamba는 ViT 대비 최대 52.43%의 성능 저하를 보였다.
Quotes
"[V]-Mamba는 선형 프로빙 방식으로 전이 학습을 수행할 때 ViT보다 우수하거나 동등한 성능을 보인다."
"[V]-Mamba는 시각적 프롬프팅 방식으로 전이 학습을 수행할 때 ViT보다 약한 성능을 보인다."
"[V]-Mamba 모델 크기가 증가할수록 선형 프로빙과 시각적 프롬프팅 간 성능 격차가 약간 증가하는 경향이 있다."