Core Concepts
본 논문은 대규모 인구 게임의 근사 내쉬 균형을 계산하기 위한 MF-OML(Mean-Field-Occupation Measure Learning) 알고리즘을 제안한다. 이 알고리즘은 점유 측도를 활용하여 평균장 게임의 균형을 찾는 문제를 단조 포함 문제로 변환하고, 이를 온라인 강화학습 환경에서 효율적으로 해결한다.
Abstract
본 논문은 대규모 인구 게임의 근사 내쉬 균형을 계산하기 위한 MF-OML 알고리즘을 제안한다.
대규모 인구 게임의 균형 계산은 어려운 문제이지만, 평균장 게임(MFG)을 활용하면 근사 해를 구할 수 있다.
기존 연구에서는 MFG의 균형을 직접 정책 업데이트로 찾는 방식을 사용했지만, 본 논문에서는 점유 측도를 활용하여 단조 포함 문제로 변환한다.
이를 통해 강한 Lasry-Lions 단조성 하에서 ˜O(M^3/4 + N^(-1/2)M) 의 고확률 regret bound를, 약한 Lasry-Lions 단조성 하에서 ˜O(M^(11/12) + N^(-1/6)M) 의 regret bound를 달성할 수 있다.
이는 기존 연구와 달리 zero-sum 게임이나 potential 게임에 국한되지 않고 일반 대규모 인구 게임의 균형을 찾을 수 있는 최초의 다agent 강화학습 알고리즘이다.
Stats
대규모 인구 게임에서 MF-OML 알고리즘은 강한 Lasry-Lions 단조성 하에서 ˜O(M^3/4 + N^(-1/2)M)의 고확률 regret bound를 달성한다.
약한 Lasry-Lions 단조성 하에서는 ˜O(M^(11/12) + N^(-1/6)M)의 regret bound를 달성한다.
여기서 M은 전체 에피소드 수, N은 게임 참여자 수이다.
Quotes
"본 논문은 대규모 인구 게임의 근사 내쉬 균형을 계산하기 위한 MF-OML(Mean-Field-Occupation Measure Learning) 알고리즘을 제안한다."
"MF-OML은 zero-sum 게임이나 potential 게임에 국한되지 않고 일반 대규모 인구 게임의 균형을 찾을 수 있는 최초의 다agent 강화학습 알고리즘이다."