แนวคิดหลัก
클라이언트가 벤더로부터 블랙박스 액세스를 받아 모델을 쿼리당 유료로 사용하는 상황에서, Vision-Language 모델을 학습하여 학생 모델로 압축하고 이를 추론 중에 사용함으로써 도메인 일반화를 향상시키는 방법을 제안합니다.
สถิติ
CLIP 모델은 400백만 개의 웹 스크랩 이미지-텍스트 쌍으로 훈련됨.
LiT 모델은 40억 개의 이미지-텍스트 쌍에서 훈련되어 ImageNet에서 85.2%의 제로샷 정확도를 달성함.
คำพูด
"VLMs는 다양한 데이터 분포를 통해 훈련되어 여러 응용 프로그램에서 뛰어난 성능을 보입니다."
"VL2V-ADiP 방법은 표준 도메인 일반화 벤치마크 데이터셋에서 최첨단 결과를 달성합니다."