핵심 개념
데이터 스트림에서 관찰값과 라벨의 평균 제곱 오차 또는 오분류율을 최소화하는 최적 분할점을 찾는 알고리즘을 제시한다.
초록
이 논문은 데이터 스트림에서 의사결정 트리 학습을 위한 최적 분할점을 찾는 알고리즘을 제안한다.
회귀 문제의 경우, 관찰값 xi와 라벨 yi로 구성된 데이터 스트림이 주어졌을 때, 평균 제곱 오차를 최소화하는 최적 분할점 j를 찾는다. 이를 위해 다음과 같은 알고리즘을 제시한다:
- 1-pass 결정적 알고리즘: 고유값 D를 사용하여 최적 분할점을 찾는다. 공간 복잡도는 O(D), 업데이트 시간은 O(1), 후처리 시간은 O(D)이다.
- 2-pass 확률적 알고리즘: 공간 복잡도 O(1/ε), 업데이트 시간 O(1), 후처리 시간 O(1/ε)로 OPT+ε 근사 해를 찾는다.
- O(logN)-pass 확률적 알고리즘: 공간 복잡도 O(1/ε^2), 업데이트 및 후처리 시간 O(1/ε^2)로 (1+ε)OPT 근사 해를 찾는다.
분류 문제의 경우, 관찰값 xi와 이진 라벨 yi로 구성된 데이터 스트림이 주어졌을 때, 오분류율을 최소화하는 최적 분할점 j를 찾는다. 이를 위해 다음과 같은 알고리즘을 제시한다:
- 1-pass 확률적 알고리즘: 공간 복잡도 O(1/ε), 업데이트 시간 O(1), 후처리 시간 O(1/ε)로 OPT+ε 근사 해를 찾는다.
- O(logN)-pass 확률적 알고리즘: 공간 복잡도 O(1/ε^2), 업데이트 및 후처리 시간 O(1/ε^2)로 (1+ε)OPT 근사 해를 찾는다.
또한 범주형 관찰값에 대한 분류 문제도 다룬다.
통계
관찰값 xi와 라벨 yi의 개수 m은 매우 크므로 단일 기계에 저장할 수 없다.
관찰값 xi는 [1, N] 범위의 정수이며, 라벨 yi는 [0, M] 범위의 실수 또는 {-1, +1}의 이진 값이다.