Core Concepts
정책 최적화 기법을 사용하여 상대 엔트로피 정규화가 도입된 일반합 N-agent 게임의 내쉬 균형을 계산할 수 있으며, 이 균형은 선형 가우시안 정책으로 특징지어진다. 또한 엔트로피 정규화 매개변수가 충분히 크다면 내쉬 균형의 유일성이 보장된다.
Abstract
이 논문은 상대 엔트로피 정규화가 도입된 일반합 N-agent 선형-2차(LQ) 게임의 내쉬 균형을 분석한다.
주요 내용은 다음과 같다:
- 상대 엔트로피 정규화가 도입된 일반합 LQ 게임(ERGS)을 정의하고, 이 게임의 내쉬 균형이 선형 가우시안 정책으로 특징지어짐을 보인다.
- 엔트로피 정규화 매개변수 τ가 충분히 크다면 내쉬 균형의 유일성이 보장됨을 보인다.
- 정책 최적화(PO) 알고리즘을 제안하고, τ가 적절한 조건을 만족하면 이 알고리즘이 내쉬 균형에 선형 수렴함을 증명한다. 또한 τ가 이 조건을 만족하지 않는 경우에도 δ-증강 기법을 통해 ε-내쉬 균형을 달성할 수 있음을 보인다.
Stats
상대 엔트로피 정규화 매개변수 τ는 모델 의존적 상수 γB, γP에 의해 다음과 같이 하한이 정해진다: τ > 2γ2
Bγ∗
P (N-1)
증강된 게임의 상대 엔트로피 정규화 매개변수 ¨
τ는 다음과 같이 하한이 정해진다: ¨
τ > 2γ2
B¨
γ∗
P (N-1)
Quotes
"정책 최적화 알고리즘은 강화학습 기법의 기반이 되는 접근법이므로, 이 연구에서는 상대 엔트로피 정규화가 도입된 일반합 LQ 게임의 내쉬 균형을 찾는 정책 최적화 알고리즘의 수렴성을 증명한다."
"엔트로피 정규화 매개변수 τ가 충분히 크다면 내쉬 균형의 유일성이 보장되며, 이 경우 제안된 정책 최적화 알고리즘이 내쉬 균형에 선형 수렴함을 보인다."