核心概念
다중 플레이어 제로섬 마르코프 게임에서 네트워크 분리 상호작용 구조를 가진 새로운 클래스를 정의하고, 이에 대한 이론적 결과와 알고리즘을 제시한다.
摘要
이 논문은 다중 플레이어 제로섬 마르코프 게임의 새로운 클래스인 "네트워크 분리 상호작용을 가진 다중 플레이어 제로섬 마르코프 게임(zero-sum NMGs)"을 소개한다.
주요 내용은 다음과 같다:
- 제로섬 NMG의 정의와 구조적 특성을 제시한다. 보상 함수와 상태 전이 동역학이 특정 조건을 만족할 때 MG가 제로섬 NMG가 된다.
- 제로섬 NMG에서 마르코프 코스 상관 균형(CCE)과 마르코프 내쉬 균형(NE)이 동일함을 보인다. 이를 통해 CCE 계산으로 NE를 구할 수 있다.
- 무한 시계 할인 제로섬 NMG에서 근사 마르코프 정상 CCE 계산이 PPAD-hard임을 보인다. 단, 기저 네트워크가 star 구조인 경우는 예외이다.
- 제로섬 NMG에 대한 허구적 플레이 동역학을 제안하고, star 구조 네트워크에서 수렴성을 보인다.
- 정상 균형 계산의 어려움에 따라, 비정상 NE 계산을 위한 가치 반복 기반 알고리즘을 제시하고 수렴성을 보인다.
统计
마르코프 게임의 구성 요소: N = [n] 플레이어 집합, S 상태 공간, A = Πi∈N Ai 행동 공간, H 시계 길이, Ph 상태 전이 확률, rh,i 보상 함수, γ 할인 인자
마르코프 정책: πi = {πh,i : S → ∆(Ai)}h∈[H], π = {πh : S → ∆(A)}h∈[H]
마르코프 가치 함수: V π
h,i(sh) = Eπ[ΣH
h′=h γh′-hrh′,i(sh′,ah′) | sh], Qπ
h,i(sh,ah) = Eπ[ΣH
h′=h γh′-hrh′,i(sh′,ah′) | sh,ah]
ϵ-근사 마르코프 완전 NE/CCE: maxi∈N maxµi∈(∆(Ai))|S|×H(V µi,π-i
h,i (ρ) - V π
h,i(ρ)) ≤ ϵ, ∀ρ∈∆(S), h∈[H]