이 논문은 대규모 데이터셋의 압축 및 압축 검색을 위한 panCAKES라는 새로운 접근 방식을 소개한다. panCAKES는 데이터의 저차원 구조를 활용하여 데이터를 효율적으로 압축하고 압축된 데이터에서 k-NN(k-nearest neighbor) 및 ρ-NN(ρ-nearest neighbor) 검색을 수행할 수 있다.
panCAKES는 거리 함수가 두 점 사이의 거리와 비례하여 한 점을 다른 점으로 인코딩하는 데 필요한 메모리 비용을 나타내는 경우 일반화될 수 있다. 이 속성은 Levenshtein 거리, Needleman-Wunsch 거리, Jaccard 거리 등 많은 널리 사용되는 거리 함수에 대해 성립한다.
논문에서는 panCAKES를 다양한 데이터셋(유전체, 단백질체, 집합 데이터)에 적용하여 압축 비율과 압축된 데이터에서의 검색 성능을 평가한다. panCAKES는 gzip과 유사한 압축 비율을 달성하면서도 k-NN 및 ρ-NN 검색에 대해 선형 시간 복잡도보다 낮은 성능을 제공한다. 이를 통해 panCAKES가 대규모 데이터셋에 대한 효율적이고 일반적인 압축 및 압축 검색 알고리즘임을 보여준다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Morgan E. Pr... في arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12161.pdfاستفسارات أعمق