부분적으로 관찰 가능한 마르코프 의사결정 과정(POMDP)에서 상태 전이 행렬의 저차원 구조를 활용하여 표현 학습과 정책 최적화를 통합한 효율적인 강화학습 알고리즘 Embed to Control(ETC)을 제안한다.