본 연구에서는 후계자 특징을 활용하여 각 (하위)정책이 잘 정의된 하위 문제를 해결하는 정책 기반을 학습하는 방법을 제안합니다. 유한 상태 자동기계(FSA)로 설명되는 과제에서, 이러한 (하위)정책들의 조합을 사용하면 추가적인 학습 없이 최적의 솔루션을 생성할 수 있습니다. 다른 방법들과 달리, 제안하는 방법은 확률적 환경에서도 전역 최적성을 달성합니다.