核心概念
단조 게임에서 거울 플레이 동학은 유한 시간 거울 미분 게임의 폐루프 내쉬 균형 경로와 동등하다.
摘要
이 논문은 단조 게임에서의 거울 플레이(mirror play, MP) 동학을 변분 해석하는 새로운 관점을 제시한다.
-
MP 동학을 유한 시간 거울 미분 게임(mirror differential game, MDG)의 폐루프 내쉬 균형 경로와 동등하게 해석한다. MDG의 단계 비용은 Brezis-Ekeland 변분 원리에 기반하여 정의된다.
-
이를 통해 MP 유한 시간 궤적을 MDG의 균형 경로로 해석할 수 있으며, Lyapunov 방법을 활용하여 MP 동학의 유한 시간 수렴 속도를 정량화할 수 있다.
-
이 변분 해석은 확률적 거울 플레이(stochastic mirror play, SMP)로 확장되며, SMP 동학이 확률적 거울 미분 게임(stochastic mirror differential game, SMDG)의 폐루프 내쉬 균형 경로와 동등함을 보인다.
이러한 변분 해석은 MP 동학의 안정성과 최적성을 이해하는 데 도움이 될 것으로 기대된다.
統計資料
단조 게임 G에서 각 플레이어 i의 전략 공간은 Yi이고, 비용 함수는 ψi(yi, y-i)이다.
거울 플레이 동학은 다음과 같이 표현된다:
˙xi = -∇iψi(∇φi(xi), ∇φ-i(x-i)), xi(0) = xi,0
거울 미분 게임(MDG)의 개별 비용 함수는 다음과 같이 정의된다:
Ji(x0, {ui}) = ∫T0 ci(x(t), ui(t), u-i(t))dt + qi(x(T))
여기서 ci(x, u) = ψi(∇φi(xi), ∇φ-i(x-i)) + ψi(-ui | ∇φ-i(x-i)) + ⟨ui, yi⟩
qi(x(T)) = Dφ*i(xi(T), xi)
引述
"거울 플레이(MP)는 모든 에이전트가 분산된 방식으로 거울 하강을 동시에 구현하는 잘 알려진 원초-이중 다중 에이전트 학습 알고리즘이다."
"본 연구는 단조 게임에서 MP의 유한 시간 원초-이중 경로(거울 경로)가 유한 시간 거울 미분 게임(MDG)의 폐루프 내쉬 균형 경로와 동등함을 보인다."