핵심 개념
고차원 데이터 분포에서 알려진 분포와 알려지지 않은 낮은 차수 다항식 임계 함수에 의해 절단된 분포를 구별하는 문제에 대한 효율적인 알고리즘과 하한을 제시합니다.
초록
고차원 절단 감지: 다항식 임계 함수
본 연구 논문에서는 고차원 데이터에서 절단 발생 여부를 감지하는 기본적인 통계 문제를 다룹니다. 주어진 고차원 분포 D와 데이터 포인트 집합이 있을 때, 데이터가 원래 분포 D에서 생성되었는지 아니면 알 수 없는 절단 집합 S에 의해 절단된 D|S에서 생성되었는지 구별하는 것이 목표입니다.
본 연구는 고차원 i.i.d. 곱 분포 D와 알 수 없는 차수 d의 다항식 임계 함수(PTF)로 정의된 절단 집합 S를 가정하여 절단 감지 문제를 해결하고자 합니다.
본 논문에서는 두 가지 주요 결과를 제시합니다. 첫째, D가 초축소성 분포일 때 효율적인 다항 시간 알고리즘을 제시합니다. 이 알고리즘은 O(nd/2)개의 샘플을 사용하여 D와 D|S를 성공적으로 구별합니다. 둘째, D가 {-1, +1}n 위의 균등 분포일 때, 차수 d의 PTF에 대한 모든 구별 알고리즘은 Ω(nd/2)개의 샘플을 사용해야 함을 보여주는 하한을 증명합니다.