본 연구는 마르코프 결정 과정(MDP) 및 마르코프 게임(MG)에서 저차원 전이 확률 모델을 가정하고, 대조적 자기지도 학습을 통해 효과적인 특징 표현을 추출하여 온라인 강화학습 알고리즘의 샘플 효율성을 향상시킨다.