이 연구는 비전-언어 모델(VLM)의 성능을 향상시키기 위해 혁신적인 이중 학습 개념을 도입한다. 기존 VLM은 이미지가 무엇인지 학습하지만, 이 연구에서는 이미지가 무엇이 아닌지도 학습한다. 이를 위해 DualAdapter라는 새로운 접근법을 제안한다. DualAdapter는 긍정적 선택과 부정적 배제를 통해 VLM의 성능을 향상시킨다.
구체적으로 DualAdapter는 4개의 어댑터로 구성된다. 2개는 긍정적 관점에서 VLM을 적응시키고, 2개는 부정적 관점에서 적응시킨다. 또한 노이즈가 있는 소량의 학습 데이터에 대응하기 위해 유사도 기반 레이블 정제 기법을 도입한다.
실험 결과, DualAdapter는 15개 데이터셋에서 소량 학습 및 도메인 일반화 태스크에서 기존 최신 방법들을 능가하는 성능을 보였다. 또한 계산 효율성 측면에서도 경쟁력 있는 결과를 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ce Zhang,Sim... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12964.pdfDeeper Inquiries