Core Concepts
시간 의존 예측변수를 포함하여 연속형, 범주형, 생존 결과를 예측하는 랜덤 포레스트 방법론을 제안하고 이를 구현한 DynForest R 패키지를 소개한다.
Abstract
이 논문은 시간 고정 및 시간 의존 예측변수를 모두 활용하여 연속형, 범주형, 생존 결과를 예측하는 랜덤 포레스트 방법론을 제안한다.
주요 내용은 다음과 같다:
랜덤 포레스트 트리 구축 과정에서 시간 의존 예측변수를 개별 특징으로 요약하여 활용하는 방법을 제안하였다. 이를 위해 유연한 선형 혼합 모형을 사용하여 시간 의존 예측변수의 개인별 특징을 추출한다.
연속형, 범주형, 생존 결과에 따라 적절한 분할 기준과 리프 노드 통계량을 사용하여 랜덤 포레스트를 구축한다.
개인별 예측을 위해 Out-Of-Bag 예측과 시간에 따른 동적 예측을 제공한다.
변수 중요도와 최소 깊이 지표를 통해 가장 예측력 있는 변수 또는 변수군을 식별할 수 있다.
DynForest R 패키지를 통해 제안한 방법론을 구현하고 생존, 범주형, 연속형 결과에 대한 사용 예시를 제공한다.
Stats
시간 의존 예측변수 중 혈청 빌리루빈 수치(serBilir)의 증가는 사망 위험을 30% 증가시킨다.
시간 고정 예측변수 중 나이(age)가 1년 증가할수록 사망 위험이 1.05배 증가한다.
시간 의존 예측변수 중 알부민(albumin) 수치가 1단위 증가할수록 사망 위험이 0.6배 감소한다.
Quotes
"시간 의존 예측변수를 포함하여 연속형, 범주형, 생존 결과를 예측하는 랜덤 포레스트 방법론을 제안한다."
"시간 의존 예측변수를 개별 특징으로 요약하여 활용하는 방법을 제안하였다."
"변수 중요도와 최소 깊이 지표를 통해 가장 예측력 있는 변수 또는 변수군을 식별할 수 있다."