Core Concepts
주어진 기본 분포 P와 테스트 데이터 xM이 P에 의해 생성되었을 가능성을 판단하는 방법을 제안한다. 이를 위해 다양한 통계량에 대한 최대 엔트로피 분포를 활용하여 데이터를 효율적으로 코딩하고, 이를 통해 이상치를 탐지한다.
Abstract
이 논문은 주어진 기본 분포 P와 테스트 데이터 xM이 P에 의해 생성되었을 가능성을 판단하는 방법을 제안한다.
먼저 다양한 통계량 T1(xM), T2(xM), ... 을 고려하고, 각 통계량에 대한 최대 엔트로피 분포를 구한다. 이를 통해 데이터 xM에 대한 총 코드길이를 계산하고, 이를 -log P(xM)과 비교한다.
실제 P가 알려지지 않은 경우, 데이터를 잠재 공간으로 변환하여 거기서 최대 엔트로피 코딩을 수행한다. 이 방법은 다른 생성 신경망 기반 이상치 탐지 방법들과 비교하여 대부분의 경우 더 나은 성능을 보인다.
이론적으로, 제안하는 방법은 다음과 같은 특성을 만족한다:
- 최대 엔트로피 분포는 최소 코드길이를 달성하는 최적의 코딩 분포이다.
- 통계량의 복잡도가 증가할수록 이상치 탐지가 어려워진다.
- 따라서 가능한 단순한 통계량을 사용하되, 충분한 정보를 포함할 수 있도록 해야 한다.
논문에서는 이러한 이론적 특성을 바탕으로 히스토그램 기반 통계량을 제안하고, 이에 대한 이론적 분석을 수행한다. 또한 가우시안 기본 분포와 비가우시안 데이터에 대한 실험 결과를 제시한다.
Stats
데이터 xM이 기본 분포 P에 의해 생성되었을 확률은 -log P(xM)이다.
최대 엔트로피 분포 PT(x)는 exp(λTT(x) - A(λ))의 형태를 가진다.
2 ln 2(-log P(xM) + log PT(xM))은 근사적으로 카이제곱 분포를 따른다.
Quotes
"If P is very complicated, as universal coder without any knowledge of P would have to estimate P before it can start detecting deviations from P – requiring a large number of samples."
"One advantage of the coding approach is that it allows "degenerate" models with m > M."