이 논문은 리더가 전략과 결과 조건부 효용 이전에 대한 최적 약속을 계산하는 문제를 다룹니다. 이를 위해 정상형 게임과 베이지안 게임에서 다양한 설정을 고려하며, 다항식 시간 알고리즘과 NP-완전 결과를 제시합니다.
게임 참여자들의 전략적 보상을 정밀하게 조정하여 원하는 균형 상태로 전환하고 원치 않는 균형 상태를 방지하는 새로운 게임 엔지니어링 프레임워크를 제안한다.
정책 최적화 기법을 사용하여 상대 엔트로피 정규화가 도입된 일반합 N-agent 게임의 내쉬 균형을 계산할 수 있으며, 이 균형은 선형 가우시안 정책으로 특징지어진다. 또한 엔트로피 정규화 매개변수가 충분히 크다면 내쉬 균형의 유일성이 보장된다.
다수의 전장에서 경쟁하는 상황에서 균일한 전장 가치와 비선형 집계 함수를 가진 갈등 문제에 대한 내쉬 균형 계산 알고리즘을 제안한다.
단조 게임에서 거울 플레이 동학은 유한 시간 거울 미분 게임의 폐루프 내쉬 균형 경로와 동등하다.