본 논문에서는 대규모 매개변수화된 마르코프 결정 프로세스(MDP)에 대한 효율적인 정책 합성 방법으로 결정 트리 학습과 일반화를 기반으로 하는 1-2-3-Go! 접근 방식을 제안합니다.