Core Concepts
이미지 스케일을 활용하여 더 작은 비전 모델로도 더 강력한 시각적 표현을 얻을 수 있으며, 이는 더 큰 모델을 사용하는 것보다 효과적일 수 있다.
Abstract
이 연구에서는 이미지 스케일을 활용하는 Scaling on Scales (S2) 기법을 제안한다. S2 기법은 사전 학습된 작은 비전 모델(예: ViT-B, ViT-L)을 여러 이미지 스케일에 적용하여 다중 스케일 표현을 생성한다. 이를 통해 분류, 분할, 깊이 추정, 멀티모달 언어 모델(MLLM) 벤치마크, 로봇 조작 등 다양한 작업에서 더 큰 모델을 사용하는 것보다 더 나은 성능을 달성할 수 있다. 특히 10082 해상도까지 스케일을 높여 MLLM의 시각적 세부 이해 능력을 크게 향상시킬 수 있다.
연구진은 더 큰 모델이 필요한 이유를 분석하고, 작은 모델에서도 더 큰 모델과 유사한 표현을 학습할 수 있음을 보였다. 또한 작은 모델에 S2 기법을 적용하여 사전 학습하면 더 큰 모델과 유사하거나 더 나은 일반화 성능을 달성할 수 있음을 확인했다.
이 연구 결과는 향후 비전 모델 설계 시 모델 크기 확장보다는 이미지 스케일 활용이 더 효과적일 수 있음을 시사한다. 또한 병렬 처리, 선택적 스케일 처리 등 새로운 응용 방안을 제시한다.
Stats
작은 모델(ViT-B)에 S2 기법을 적용하면 더 큰 모델(ViT-L, ViT-H)과 유사한 성능을 달성할 수 있다.
S2 기법을 적용한 LLaVA-1.5 모델은 GPT-4V, Gemini Pro 등 상용 모델을 능가하는 시각적 세부 이해 성능을 보인다.
S2 기법을 적용한 MVP 모델은 큰 모델 대비 20% 이상 큐브 픽업 성공률을 향상시킬 수 있다.
Quotes
"Scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations."
"Surprisingly, from evaluations on visual representations of various pre-trained models (e.g., ViT [21], DINOv2 [49], OpenCLIP [12], MVP [53]), we show that smaller models with S2 scaling consistently outperform larger models on classification, semantic segmentation, depth estimation, MLLM benchmarks, and robotic manipulation, with significantly fewer parameters (0.28× to 0.07×) and comparable GFLOPS."
"Remarkably, by scaling up image scale to 10082, we achieve state-of-the-art performance in MLLM visual detail understanding on V∗ benchmark [73], surpassing open-source and even commercial MLLMs like Gemini Pro [66] and GPT-4V [1]."