Core Concepts
크로스 모달 어댑터는 이미지와 텍스트 모달리티 간 정보를 효과적으로 융합하여 매개변수 효율적인 전이 학습을 달성한다.
Abstract
이 논문은 비전-언어 모델의 효율적인 전이 학습을 위한 크로스 모달 어댑터(XMAdapter)를 제안한다. 기존의 어댑터 기반 방법들은 이미지와 텍스트 모달리티를 독립적으로 다루어 왔다. 이에 반해 XMAdapter는 다음과 같은 특징을 가진다:
이미지와 텍스트 모달리티 각각에 대한 캐시 모델을 구축하여 두 모달리티 간 정보를 효과적으로 융합한다.
모달리티 간 유사도 비율을 동적으로 조절하여 서로 다른 모달리티의 기여도를 평가한다.
모달리티 간 유사도 차이를 기반으로 어려운 샘플을 탐색하고, 이에 대한 학습 강도를 적응적으로 조절하여 모델 성능을 향상시킨다.
실험 결과, XMAdapter는 11개의 벤치마크 데이터셋에서 기존 방법들을 크게 능가하는 성능을 보였다. 또한 4개의 도메인 일반화 데이터셋에서도 강건한 일반화 성능을 입증했다. 이를 통해 XMAdapter가 비전-언어 모델의 효율적인 전이 학습에 효과적임을 확인할 수 있다.
Stats
제안된 XMAdapter 모델은 기존 방법들에 비해 16샷 ImageNet 데이터셋에서 약 0.52% 높은 성능을 달성했다.
XMAdapter는 ResNet-50, ResNet-101, ViT-B/32, ViT-B/16 백본에서 각각 66.22%, 68.96%, 69.56%, 74.43%의 정확도를 보였다.
Quotes
"XMAdapter는 이미지와 텍스트 모달리티 간 정보를 효과적으로 융합하여 매개변수 효율적인 전이 학습을 달성한다."
"XMAdapter는 모달리티 간 유사도 비율을 동적으로 조절하여 서로 다른 모달리티의 기여도를 평가한다."
"XMAdapter는 모달리티 간 유사도 차이를 기반으로 어려운 샘플을 탐색하고, 이에 대한 학습 강도를 적응적으로 조절하여 모델 성능을 향상시킨다."