Core Concepts
대규모 학습 대리인 집단이 공통 전략 집합에서 비협조적으로 전략을 선택하여 안정화하고자 하는 외생 시스템의 동역학에 영향을 미치는 경우, 예산 제한 내에서 특정 전략에 대한 인센티브를 제공하여 대리인 집단의 전략 프로파일을 형성함으로써 외생 시스템의 상태를 조절할 수 있는 동적 보상 메커니즘을 체계적으로 설계할 수 있다.
Abstract
이 연구는 학습 대리인 집단이 공통 전략 집합에서 비협조적으로 전략을 선택하여 영향을 미치는 외생 시스템(ES)을 안정화하기 위한 동적 보상 메커니즘을 설계한다.
주요 내용은 다음과 같다:
시스템 이론적 수동성 개념을 활용하여 ES의 균형점을 전역적으로 점근적으로 안정화할 수 있는 보상 메커니즘을 체계적으로 구축하는 조건을 제시한다.
이전 연구에서 고려된 전염병 인구 게임 맥락보다 더 현실적인 전염병 모델과 포식자-피식자 동역학과 같은 다른 유형의 ES를 포함할 수 있다.
리아푸노프 함수를 활용하여 과도 응답에 대한 유용한 경계를 제공한다.
제안된 보상 메커니즘은 예산 제한 내에서 대리인에게 제공되는 즉각적인 보상에 대한 보장을 제공한다.
Stats
외생 시스템의 균형점 (O*, P*)은 다음과 같다:
O* = z1 / (a1z2 + a2b1)
P* = z1z2 / (a1z2 + a2b1)
외생 시스템의 리아푸노프 함수 U(O, P)는 다음과 같다:
U(O, P) = log(O/O*) + O*/O + a(R-R*)^2
Quotes
"우리의 접근법은 예산 제한 내에서 특정 전략에 대한 인센티브를 제공하여 대리인 집단의 전략 프로파일을 형성함으로써 ES의 상태에 영향을 미치는 것이다."
"제안된 동적 보상 메커니즘은 대리인에게 제공되는 즉각적인 보상에 대한 보장을 제공한다."