Core Concepts
이진 결정 트리로 구성된 랜덤 포레스트를 사용하여 고객의 선택 행동을 효과적으로 모델링하고 추정할 수 있다.
Abstract
이 연구에서는 랜덤 포레스트라는 기계 학습 알고리즘을 활용하여 이진 결정 트리로 구성된 이진 선택 숲 모델을 제안한다. 이 모델은 고객의 의사 결정 과정을 설명할 수 있는 해석 가능한 모델이다.
연구 결과에 따르면 이진 선택 숲 모델은 어떤 이산 선택 모델에 대해서도 일관되게 선택 확률을 예측할 수 있어 모형 오류가 발생하지 않는다. 또한 학습 데이터에 포함되지 않은 상품 조합에 대해서도 예측이 가능하다.
이진 선택 숲 모델은 다음과 같은 실용적인 장점이 있다: 1) 고객의 비합리적이거나 순차적인 선택 행동을 포착할 수 있다, 2) 집계된 형태의 훈련 데이터를 처리할 수 있다, 3) 상품의 중요도를 측정할 수 있다, 4) 가격 정보와 고객 특성을 반영할 수 있다.
실험 결과, 이진 선택 숲 모델은 기존 방법들에 비해 우수한 성능을 보였다.
Stats
고객이 선택한 상품이 포함되지 않은 상품 조합에 대해서도 정확한 선택 확률을 예측할 수 있다.
상품 간 거리가 로그 N 수준일 때 선택 확률 예측 오차는 로그 N/N 수준이다.
상품 조합 당 O(N^3 * (|S|+1)^2 / c^2 * (log^2 N)^2) 개 이상의 거래 데이터가 있으면 예측 오차가 (c+c1) * log^2 N/N 이하가 된다.
Quotes
"이진 결정 트리로 구성된 랜덤 포레스트를 사용하여 고객의 선택 행동을 효과적으로 모델링하고 추정할 수 있다."
"이진 선택 숲 모델은 어떤 이산 선택 모델에 대해서도 일관되게 선택 확률을 예측할 수 있어 모형 오류가 발생하지 않는다."
"이진 선택 숲 모델은 고객의 비합리적이거나 순차적인 선택 행동을 포착할 수 있다."