이 논문은 고차원 벡터에 대한 근사 최근접 이웃 검색(ANNS)에서 거리 비교 연산이 병목 현상을 일으킨다는 점을 지적한다. 이를 해결하기 위해 실제 거리 계산을 줄이는 다양한 기법들이 제안되었다.
논문은 이러한 기법들을 변환 기반, 투영 기반, 양자화 기반, 기하 기반 등 4가지 범주로 분류하고 각각의 특징을 분석한다. 변환 기반 기법은 부분 차원에서 거리를 추정하고, 투영 기반 기법은 저차원 공간으로 투영하여 거리를 추정한다. 양자화 기반 기법은 벡터를 양자화하여 거리 테이블을 미리 계산하고, 기하 기반 기법은 현재 점과 이웃 점 간의 기하학적 관계를 활용한다.
논문은 이러한 기법들을 공정하게 비교 평가할 수 있는 Fudist 벤치마크를 제안한다. Fudist는 hnswlib 라이브러리 위에 구현되어 있어 인덱스 구조와 독립적으로 다양한 거리 비교 기법을 평가할 수 있다. 16개의 실제 데이터셋에 대해 Fudist를 통해 실험한 결과, 변환 기반 기법인 PCA와 ADS가 대체로 우수한 성능을 보였다. 하지만 SIMD 최적화 측면에서는 양자화 기반 기법이 더 효과적인 것으로 나타났다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究