Core Concepts
다양한 검색 의도를 가진 검색 작업을 효과적으로 처리하기 위해 지시에 따라 검색 모델을 제어할 수 있는 일반적이고 효율적인 접근법을 제안한다.
Abstract
이 논문은 다양한 검색 의도를 가진 검색 작업을 효과적으로 처리하기 위한 ControlRetriever라는 일반적이고 효율적인 접근법을 제안한다.
기존 밀집 검색 모델은 다양한 검색 의도를 포착하는 데 어려움을 겪는다. 이를 해결하기 위해 ControlRetriever는 검색 모델의 기존 기능을 유지하면서도 자연어로 표현된 지시에 따라 다양한 검색 작업을 수행할 수 있도록 한다.
ControlRetriever의 핵심 구성은 다음과 같다:
매개변수 고립 아키텍처: 문서 인코더는 그대로 유지하고, 쿼리 인코더에 대해서만 학습 가능한 복사본을 만들어 지시에 따른 검색 성능을 향상시킨다.
LLM 기반 지시 데이터 합성 및 반복 학습: LLM을 활용해 다양한 검색 의도를 반영하는 지시와 쿼리-문서 쌍을 자동으로 생성하고, 이를 바탕으로 ControlRetriever를 반복적으로 학습시킨다.
실험 결과, ControlRetriever는 BEIR 벤치마크에서 기존 모델 대비 우수한 제로샷 성능을 보였으며, 재순위화 시나리오에서도 최신 기술을 능가하는 성과를 달성했다. 이를 통해 ControlRetriever가 다양한 검색 의도를 효과적으로 처리할 수 있음을 입증했다.
Stats
다양한 검색 작업에서 ControlRetriever가 기존 모델 대비 평균 2.2점 높은 nDCG@10 성능을 달성했다.
ControlRetriever는 Promptgator 대비 2.5점 높은 nDCG@10 성능을 보였다.
ControlRetriever+monoT5(3B) 조합은 BEIR 벤치마크에서 새로운 최고 성능을 달성했다.
Quotes
"다양한 검색 작업을 효과적으로 처리하기 위해 지시에 따라 검색 모델을 제어할 수 있는 일반적이고 효율적인 접근법을 제안한다."
"LLM을 활용해 다양한 검색 의도를 반영하는 지시와 쿼리-문서 쌍을 자동으로 생성하고, 이를 바탕으로 ControlRetriever를 반복적으로 학습시킨다."