本論文では、低ランク遷移確率を持つマルコフ決定過程(MDP)およびマルコフゲーム(MG)において、対照学習を用いて効率的に特徴表現を抽出し、それに基づいたUCBタイプのアルゴリズムを提案する。理論的に、提案手法は真の特徴表現を回復し、最適な方策や均衡点の学習を効率的に行えることを示す。