최적 전략 커밋을 위한 팔로워 무관 학습 방법
본 논문은 팔로워의 효용 함수나 전략 공간에 대한 정보 없이도 효율적으로 온라인 스택엘버그 게임을 해결할 수 있는 알고리즘을 제안한다. 이를 위해 특별히 설계된 전략을 활용하여 팔로워의 반응을 관찰하는 독특한 gradient 추정기를 도입한다. 전통적인 최적 플레이 가정에서 벗어나, 수렴하는 적응 규칙을 사용하여 현실적이고 동적인 상호작용을 모델링한다. 리더는 팔로워의 행동 관찰만으로 gradient 추정기를 구축한다.