Temel Kavramlar
데이터 부족 문제를 해결하기 위해 기존 사업에서 얻은 대량의 데이터를 활용하여 새로운 사업에서 고차원 특징 공간을 탐색하고 의사결정을 개선할 수 있다.
Özet
이 논문은 데이터 기반 순차적 의사결정 문제에서 지식 전이 프레임워크를 제안한다. 마르코프 의사결정 과정(MDP) 관점에서 과제 차이를 정의하고, 일반 함수 근사를 사용하는 전이 Fitted Q-Iteration(FQI) 알고리즘을 제안한다.
제안된 알고리즘은 기존 전이 학습 알고리즘과 두 가지 주요 차이점이 있다. 첫째, 반복적인 접근 방식을 채택하여 각 반복 단계에서 편향을 완화해야 한다. 둘째, 대상 과제뿐만 아니라 소스 과제에 대한 추정기도 동시에 구축한다.
이론적 분석에서는 준모수적 시브 근사를 사용하여 과제 차이가 전이 학습의 통계적 이점에 미치는 영향을 보여준다. 대상 과제 크기 n0에 대해 제안된 알고리즘은 총 샘플 크기 nK를 활용하여
p
p/nK의 수렴 속도를 달성할 수 있음을 보인다.
İstatistikler
대상 과제 크기 n0와 총 샘플 크기 nK의 비율이 클수록 전이 학습의 이점이 크다.
과제 간 차이 hr가 작을수록 전이 학습의 이점이 크다.
Alıntılar
"데이터 부족 문제를 해결하기 위해 기존 사업에서 얻은 대량의 데이터를 활용하여 새로운 사업에서 고차원 특징 공간을 탐색하고 의사결정을 개선할 수 있다."
"제안된 알고리즘은 기존 전이 학습 알고리즘과 두 가지 주요 차이점이 있다. 첫째, 반복적인 접근 방식을 채택하여 각 반복 단계에서 편향을 완화해야 한다. 둘째, 대상 과제뿐만 아니라 소스 과제에 대한 추정기도 동시에 구축한다."