정책 최적화 기법을 사용하여 상대 엔트로피 정규화가 도입된 일반합 N-agent 게임의 내쉬 균형을 계산할 수 있으며, 이 균형은 선형 가우시안 정책으로 특징지어진다. 또한 엔트로피 정규화 매개변수가 충분히 크다면 내쉬 균형의 유일성이 보장된다.