核心概念
UMAP 알고리즘은 정보 기하학의 기본 원리에 기반을 두고 있으며, 이를 통해 고차원 데이터를 저차원 공간에 효과적으로 투영할 수 있다.
摘要
이 논문은 UMAP 알고리즘의 이론적 측면을 정보 기하학의 관점에서 분석하고 있다.
-
균일성 가정: UMAP은 데이터가 리만 다양체 상에 균일하게 분포되어 있다고 가정한다. 이를 위해 각 데이터 포인트의 근접 이웃들을 동일한 부피의 공간에 매핑하는 방식으로 데이터를 재조정한다.
-
고차원 확률: UMAP은 k-최근접 이웃 그래프를 구축하고, 각 에지에 대한 고차원 확률을 계산한다. 이는 데이터의 국소적 기하학을 복원하는 역할을 한다.
-
저차원 확률: UMAP은 고차원 확률 분포를 저차원 공간에 최대한 유사하게 매핑하기 위해 저차원 확률을 정의한다. 이는 정보 기하학의 관점에서 볼 때 Fisher 계량을 최소화하는 과정이라고 해석할 수 있다.
-
교차 엔트로피 최소화: UMAP은 고차원 확률 분포와 저차원 확률 분포 간의 교차 엔트로피를 최소화함으로써 최적의 저차원 임베딩을 찾는다. 이는 정보 기하학의 관점에서 볼 때 Kullback-Leibler 발산을 최소화하는 과정이라고 해석할 수 있다.
-
향후 연구 방향: 저자들은 Vietoris-Rips 복합체를 활용하여 데이터의 본질적인 위상 구조를 포착할 수 있는 방법을 제안한다. 이는 UMAP의 성능을 향상시킬 수 있는 새로운 접근법이 될 수 있다.
統計資料
고차원 데이터 포인트 Xi와 Xj 간의 거리 d(Xi, Xj)는 리만 다양체 상의 측지선 거리이다.
각 데이터 포인트 Xi의 최근접 이웃까지의 거리 ρi와 스케일링 계수 σi를 이용하여 고차원 확률 pi|j를 계산한다.
저차원 공간에서 두 데이터 포인트 yi와 yj 간의 거리에 따라 저차원 확률 wl(e)를 정의한다.
引述
"UMAP seeks to embed X into a lower–dimensional space Rn, with n ≪ m, as a set Y = {yi} ⊂ Rn such that the higher–dimensional proximity between points is preserved in and, moreover, visually revealed if n = 2 or 3."
"The symmetrisation procedure simply applies the "OR" Boolean operator to the local probabilities pi|j and pj|i as if they were independent."
"The fact that the points of Y corresponding to connected vertices of the high–dimensional kNN–graph on X move into positions minimizing the above cross–entropy does not imply that the points of Y corresponding to the points of X being far apart will also be comparably far apart in the low–dimensional embedding."