Core Concepts
교차 인코더 모델을 활용한 k-NN 검색을 위해 효율적으로 잠재 쿼리 및 아이템 표현을 계산하고, 이를 활용하여 근사 교차 인코더 점수로 k-NN 검색을 수행하는 방법을 제안한다.
Abstract
이 논문에서는 교차 인코더 모델을 활용한 k-NN 검색을 위한 효율적인 접근법을 제안한다.
오프라인 색인 단계에서는 교차 인코더 점수를 활용하여 희소 행렬 분해 기반 방법으로 아이템 임베딩을 계산한다. 이때 기존 이중 인코더 모델을 활용하여 초기화하고, 추가 미세 조정 없이도 교차 인코더와 잘 정렬된 임베딩을 얻을 수 있다.
온라인 검색 단계에서는 테스트 쿼리 임베딩을 점진적으로 업데이트하며 근사 교차 인코더 점수로 k-NN 검색을 수행한다. 첫 번째 라운드에서는 기존 모델을 활용하여 일부 아이템을 검색하고, 이후 라운드에서는 이전 라운드에서 검색된 아이템의 교차 인코더 점수를 활용하여 테스트 쿼리 임베딩을 개선하며 추가 아이템을 검색한다.
제안 방법은 기존 접근법 대비 색인 시간을 크게 단축하면서도 k-NN 검색 성능을 향상시킬 수 있다. 제안 방법은 ZESHEL 및 BEIR 벤치마크에서 평가되었으며, 기존 방법 대비 최대 100배 빠른 색인 속도와 최대 54%의 k-NN 검색 성능 향상을 보였다.
Stats
교차 인코더 모델을 활용한 k-NN 검색 시 기존 방법 대비 최대 100배 빠른 색인 속도 달성
제안 방법으로 k=100에 대한 Top-k 재현율을 최대 54% 향상
Quotes
"교차 인코더 모델은 쿼리-아이템 쌍을 함께 인코딩하여 유사도를 계산하므로 임베딩 기반 이중 인코더 모델보다 쿼리-아이템 관련성 추정 성능이 우수하다."
"기존 접근법인 이중 인코더 기반 검색-재순위화 방식은 새로운 도메인에 대한 일반화 성능이 낮고, 교차 인코더와의 연계가 약하다는 단점이 있다."
"CUR 분해 기반 접근법은 이중 인코더 기반 방식보다 정확할 수 있지만, 교차 인코더 점수를 계산하기 위해 막대한 수의 교차 인코더 호출이 필요하여 실제 배포에는 부적합하다."