核心概念
언어 데이터만을 사용하여 효율적이고 효과적으로 제로샷 복합 이미지 검색 모델을 학습할 수 있는 새로운 프레임워크를 제안한다.
摘要
이 논문은 복합 이미지 검색(CIR) 문제를 다룬다. CIR은 이미지와 텍스트로 구성된 쿼리를 입력받아 관련 이미지를 검색하는 과제이다. 기존 CIR 방법들은 이미지-텍스트-타겟 이미지로 구성된 트리플렛 데이터셋이 필요했지만, 이는 매우 비싼 데이터 수집 과정이 요구된다.
저자들은 언어 데이터만을 사용하여 효율적이고 효과적인 제로샷 CIR 모델을 학습하는 새로운 프레임워크 LinCIR을 제안한다. LinCIR은 텍스트 데이터셋만을 사용하여 학습할 수 있으며, 새로운 자기 지도 학습 기법인 Self-Masking Projection (SMP)을 도입한다. SMP는 원문 텍스트의 키워드 토큰을 모델이 예측한 토큰 임베딩으로 대체하여 원문 임베딩과 동일한 임베딩을 생성하도록 학습한다. 이를 통해 다양한 텍스트 입력에 강건한 모델을 학습할 수 있다.
또한 저자들은 모달리티 간 갭을 해결하기 위해 적절한 확률 분포의 랜덤 노이즈를 텍스트 임베딩에 추가하는 전략을 제안한다. 이를 통해 이미지 임베딩에 대한 일반화 성능을 향상시킨다.
실험 결과, LinCIR은 기존 제로샷 CIR 방법들에 비해 훨씬 더 짧은 학습 시간과 우수한 성능을 보였다. 특히 CLIP 백본 모델의 크기를 확장할수록 LinCIR의 성능이 크게 향상되었지만, 기존 방법들은 성능이 저하되었다. 또한 LinCIR은 FashionIQ 벤치마크에서 최신 감독 학습 모델을 능가하는 성과를 보였다.
統計資料
언어 데이터셋 CC3M의 크기는 약 125MB이지만, 이미지 데이터셋 크기는 약 430GB로 3,400배 더 크다.
CLIP 텍스트 인코더의 처리량은 CLIP 비전 인코더보다 약 1.4배 더 빠르다.
引述
"LinCIR은 언어 데이터만을 사용하여 효율적이고 효과적인 제로샷 CIR 모델을 학습할 수 있는 새로운 프레임워크이다."
"SMP는 원문 텍스트의 키워드 토큰을 모델이 예측한 토큰 임베딩으로 대체하여 원문 임베딩과 동일한 임베딩을 생성하도록 학습한다."
"LinCIR은 기존 제로샷 CIR 방법들에 비해 훨씬 더 짧은 학습 시간과 우수한 성능을 보였다."