이 연구 논문에서는 사전 훈련된 비전-언어 모델(예: CLIP)을 다양한 다운스트림 작업에 적용할 때 발생하는 과제, 즉 테스트 시간 적응(TTA)을 다룹니다. 저자들은 특히 기존 TTA 방법의 단점을 해결하는 새로운 접근 방식인 BoostAdapter를 제안합니다.
기존의 훈련 기반 TTA 방법(예: TPT)은 엔트로피 최소화를 통해 모델 적응을 달성하지만 상당한 계산 오버헤드가 필요합니다. 반면 훈련이 필요 없는 방법(예: TDA)은 테스트 샘플 자체에서 정보를 추출하는 기능을 간과합니다.
BoostAdapter는 인스턴스에 구애받지 않는 과거 샘플과 인스턴스 인식 부스팅 샘플에서 특징 검색을 위해 가벼운 키-값 메모리를 유지 관리함으로써 이러한 한계를 해결합니다.
BoostAdapter는 테스트 샘플의 증강된 이미지가 원본 데이터의 지역적 부트스트래핑 분포를 형성한다는 관찰을 기반으로 합니다. CLIP 텍스트 임베딩 클러스터와의 상호 정보를 기반으로 노이즈가 많은 증강을 필터링하여 대상 클러스터에 가까운 고품질 샘플을 가져올 수 있는 부스팅 분포를 얻습니다.
BoostAdapter는 이러한 부스팅 샘플을 메모리 뱅크에 통합하여 훈련이 필요 없는 어댑터를 개선합니다. 캐시는 테스트 데이터 스트림에서 필터링된 인스턴스에 구애받지 않는 과거 샘플과 샘플 자체의 지역적 부트스트래핑을 통해 생성된 인스턴스 인식 부스팅 샘플로 구성됩니다. 샘플 내 및 샘플 간 작업 간의 상호 작용을 통해 BoostAdapter는 훈련이 필요 없는 방법의 효율성을 유지하면서 훈련 기반 방법에서 정보 마이닝 아이디어를 통합하여 효과적이고 효율적으로 만듭니다.
BoostAdapter는 테스트 시간 적응을 위한 유망한 새로운 전략을 제공합니다. 이 방법은 비전-언어 모델의 견고성과 성능을 향상시켜 실제 시나리오에서 광범위한 다운스트림 작업에 적용할 수 있습니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询