핵심 개념
비전-언어 모델의 성능을 향상시키기 위해 긍정적 선택과 부정적 배제를 통합한 이중 경로 적응 기법을 제안한다.
초록
이 연구는 비전-언어 모델(VLM)의 성능을 향상시키기 위해 혁신적인 이중 학습 개념을 도입한다. 기존 VLM은 이미지가 무엇인지 학습하지만, 이 연구에서는 이미지가 무엇이 아닌지도 학습한다. 이를 위해 DualAdapter라는 새로운 접근법을 제안한다. DualAdapter는 긍정적 선택과 부정적 배제를 통해 VLM의 성능을 향상시킨다.
구체적으로 DualAdapter는 4개의 어댑터로 구성된다. 2개는 긍정적 관점에서 VLM을 적응시키고, 2개는 부정적 관점에서 적응시킨다. 또한 노이즈가 있는 소량의 학습 데이터에 대응하기 위해 유사도 기반 레이블 정제 기법을 도입한다.
실험 결과, DualAdapter는 15개 데이터셋에서 소량 학습 및 도메인 일반화 태스크에서 기존 최신 방법들을 능가하는 성능을 보였다. 또한 계산 효율성 측면에서도 경쟁력 있는 결과를 달성했다.
통계
제안된 DualAdapter 방법은 16-shot ImageNet 데이터셋에서 66.52%의 정확도를 달성하여, 기존 최신 방법인 Tip-Adapter-F (65.51%)를 능가했다.
DualAdapter는 128-shot ImageNet 데이터셋에서 70.98%의 정확도를 달성하여, Tip-Adapter-F (69.74%)보다 1.24% 높은 성능을 보였다.
DualAdapter는 16-shot ImageNet 데이터셋에서 0.009 GFLOPs와 4.10M 파라미터를 사용하여, Tip-Adapter-F (0.030 GFLOPs, 16.38M 파라미터)보다 효율적이었다.
인용구
"최근 대규모 사전 학습된 비전-언어 모델(VLM)은 개방 세계 시각 표현 학습에 큰 잠재력을 보여주었고, 효율적인 fine-tuning을 통해 다양한 하위 태스크에서 눈에 띄는 성능을 보여주었다."
"우리는 이 작업에서 이중 학습 개념을 fine-tuning VLM에 혁신적으로 도입한다. 즉, 우리는 이미지가 무엇인지뿐만 아니라 이미지가 무엇이 아닌지도 학습한다."