核心概念
본 논문에서는 훈련된 대조적 이미지-텍스트 검색 모델의 오류를 추가 훈련 없이 수정하는 간단하고 효율적인 방법인 Nearest Neighbor Normalization (NNN)을 제시하며, 다양한 모델과 데이터셋에서 검색 지표의 향상을 보여줍니다.
摘要
가장 가까운 이웃 정규화를 통한 다중 모달 검색 성능 향상
본 연구 논문에서는 사전 훈련된 대조적 이미지-텍스트 검색 모델의 오류를 추가 훈련 없이 수정하는 새로운 방법인 Nearest Neighbor Normalization (NNN)을 소개합니다. 저자들은 NNN이 다양한 대조적 모델(CLIP, BLIP, ALBEF, SigLIP, BEiT)과 데이터셋(MS-COCO, Flickr30k)에서 텍스트 검색 및 이미지 검색 모두에서 검색 지표를 향상시키는 것을 보여줍니다. NNN은 참조 데이터베이스가 필요하지만, 이 데이터베이스에 대한 학습이 필요하지 않으며, 미세 조정 후에도 모델의 검색 정확도를 높일 수 있습니다.
대조적 이미지 및 텍스트 모델은 대규모 텍스트-이미지 또는 이미지-텍스트 검색 시스템의 기본 구성 요소입니다. 이러한 모델은 대조적 손실 함수를 사용하여 일치하는 텍스트 및 이미지 쌍에 대한 임베딩을 정렬하는 동시에 일치하지 않는 쌍에 대한 임베딩을 분리하여 공동 텍스트 및 이미지 임베딩을 학습합니다. 그러나 대조적 임베딩은 다운스트림 검색 정확도보다는 InfoNCE와 같은 사전 훈련 목표를 최적화하므로 학습된 임베딩은 검색에 최적이 아닐 수 있습니다. 다운스트림 검색 작업에서 대조적 모델을 개선하기 위한 많은 방법은 도메인 간에 모델을 조정하거나 외부 데이터베이스에서 정보를 집계하기 위해 추가 교육이 필요하며, 다른 방법은 성별 편향과 같은 개별 오류 범주에 특화되어 있습니다.