Core Concepts
최대 평균 차이(MMD) 두 표본 검정은 최적이 아니며, 공분산 정보를 고려한 스펙트럼 정규화 검정이 최소최대 최적임을 보였다.
Abstract
이 논문은 비모수 두 표본 검정 문제에 대한 최적성을 이해하는 것을 목표로 한다.
첫째, 저자들은 기존의 MMD 두 표본 검정이 Hellinger 거리 기준으로 최적이 아님을 보였다.
둘째, 공분산 정보를 고려한 스펙트럼 정규화 검정을 제안하고, 이 검정이 최소최대 최적임을 증명했다.
셋째, 데이터 기반 정규화 매개변수 선택 전략을 통해 적응형 스펙트럼 정규화 검정을 제안했고, 이 검정이 로그 로그 인자까지 최소최대 최적임을 보였다.
넷째, 커널 선택에 대한 적응형 검정도 제안했다.
다섯째, 실험을 통해 제안된 검정들이 기존 방법들에 비해 우수한 성능을 보임을 확인했다.
Stats
최대 평균 차이(MMD) 검정의 분리 경계는 (N + M)^(-2θ/(2θ+1))이다.
스펙트럼 정규화 검정의 최소최대 분리 경계는 다음과 같다:
고유값 감소가 다항식일 때, (N + M)^(-4θβ/(4θβ+1))
고유값 감소가 지수적일 때, sqrt(log(N + M)/(N + M))
Quotes
"MMD 검정은 최적이 아니다."
"공분산 정보를 고려한 스펙트럼 정규화 검정이 최소최대 최적이다."
"적응형 스펙트럼 정규화 검정이 로그 로그 인자까지 최소최대 최적이다."