Core Concepts
고차원 데이터에서 Wasserstein 거리의 약점을 극복하기 위해 투영 Wasserstein 거리를 제안하고, 이를 활용한 두 표본 검정 방법을 제시한다.
Abstract
두 표본 검정은 통계학과 기계 학습에서 중요한 문제이다. 주어진 두 개의 데이터 샘플이 동일한 분포에서 생성되었는지 검정하는 것이 목적이다.
기존의 두 표본 검정 방법은 주로 매개변수 접근법을 따르거나 적분 확률 측도(IPM)에 기반한다. IPM 기반 방법은 고차원 데이터에서 약점을 보인다.
Wasserstein 거리는 IPM의 한 종류로, 고차원 데이터에서 수렴 속도가 느리다는 문제가 있다.
이 논문에서는 투영 Wasserstein 거리를 제안하여 이 문제를 해결한다. 투영 Wasserstein 거리는 고차원 데이터를 저차원 공간으로 투영하여 Wasserstein 거리를 계산한다.
투영 Wasserstein 거리의 유한 표본 수렴 속도를 분석하고, 이를 활용한 두 표본 검정 방법을 제시한다.
실험 결과, 제안된 방법이 기존 방법에 비해 고차원 데이터에서 우수한 성능을 보인다.
Stats
고차원 데이터에서 Wasserstein 거리의 수렴 속도는 O(n^(-1/d))로 느리다.
투영 Wasserstein 거리의 수렴 속도는 O(n^(-1/(k∨2)))로, 차원 k에 덜 의존적이다.
Quotes
"Wasserstein 거리는 많은 기계 학습 응용 분야에서 인기가 있지만, 경험적 Wasserstein 거리의 유한 표본 수렴 속도가 고차원 설정에서 느리다는 중요한 문제가 있다."
"우리는 고차원 분포 간 차이를 이해하기 위해 저차원 투영을 일반적으로 사용한다."