본 연구는 데이터 스트림 환경에서 최적의 의사결정 트리를 학습하는 새로운 알고리즘을 제안한다. 기존의 휴리스틱 기반 의사결정 트리 알고리즘들은 전역적 최적성을 보장하지 않으며, 복잡하고 해석하기 어려운 트리를 생성할 수 있다.
이를 해결하기 위해 본 연구는 마르코프 의사결정 프로세스(MDP)로 문제를 정의하고, 몬테카를로 트리 탐색(MCTS) 기반의 Thompson Sampling 의사결정 트리(TSDT) 알고리즘을 제안한다. TSDT는 Thompson Sampling 정책을 사용하여 최적 정책으로 거의 확실하게 수렴한다.
실험 결과, TSDT는 기존 휴리스틱 기반 온라인 의사결정 트리 알고리즘의 한계를 극복하고, 최근 최적 배치 의사결정 트리 알고리즘과 비교해서도 우수한 성능을 보인다. 또한 온라인 환경에 특화된 장점을 가지고 있다.
To Another Language
from source content
arxiv.org
Djupare frågor