Core Concepts
근사 UMAP은 표준 UMAP 투영 공간을 복제하면서 투영 속도를 크게 향상시킬 수 있다.
Abstract
이 연구에서는 근사 UMAP(aUMAP)이라는 새로운 UMAP 변형을 소개한다. aUMAP은 실시간 내성을 위해 투영 속도를 크게 향상시키는 것을 목표로 한다.
- 표준 UMAP과 비교하여 aUMAP은 투영 공간을 잘 복제하면서도 투영 속도를 1 order 향상시킬 수 있다.
- aUMAP은 표준 UMAP과 동일한 모델 학습 시간을 가지며, 투영 속도 향상을 위해 추가적인 k-최근접 이웃 모델을 학습한다.
- 실험 결과, aUMAP은 표준 UMAP 투영과 평균 0.1-0.25 표준편차 내에서 일치하는 투영을 생성한다.
- aUMAP은 표준 UMAP보다 투영 속도가 1 order 빠르며, 특히 온라인 환경에서 데이터를 소량씩 받는 경우 그 차이가 더 크다.
- 따라서 aUMAP은 실시간 데이터 시각화에 가장 적합한 방법으로 판단된다.
Stats
데이터 차원이 증가할수록 표준 UMAP과 CPU 기반 pUMAP의 학습 시간이 크게 증가한다.
데이터 샘플 수가 증가할수록 모든 모델의 학습 시간이 증가한다.
단일 배치로 투영할 경우 표준 UMAP과 CPU 기반 pUMAP의 투영 속도가 aUMAP보다 1 order 빠르다.
소량의 데이터를 배치로 투영할 경우 aUMAP이 표준 UMAP과 CPU 기반 pUMAP보다 1 order 이상 빠르다.