Core Concepts
하이퍼파라미터 스케줄(HS)은 반복 간 하이퍼파라미터를 동적으로 조정하여 카운터팩추얼 후회 최소화(CFR) 변형 알고리즘의 수렴 속도를 크게 향상시킬 수 있다.
Abstract
이 논문은 게임 해결을 위한 새로운 접근법인 하이퍼파라미터 스케줄(HS)을 소개한다. HS는 CFR 변형 알고리즘의 하이퍼파라미터를 반복에 따라 동적으로 조정하여 수렴 속도를 크게 향상시킨다.
주요 내용은 다음과 같다:
HS-DCFR과 HS-PCFR+라는 두 가지 HS 기반 알고리즘을 제안하였다. 이 알고리즘들은 기존 최신 기법들에 비해 수렴 속도가 수 orders of magnitude 빠르다.
HS는 게임별 튜닝 없이도 우수한 성능을 보였다. 이는 기존 DDCFR 알고리즘이 게임별 RL 기반 튜닝을 필요로 하는 것과 대비된다.
이론적으로 HS-DCFR과 HS-PCFR+의 수렴 속도 하한을 증명하였다.
다양한 벤치마크 게임에서 실험을 수행하여 HS 기반 알고리즘의 우수성을 입증하였다.
Stats
카운터팩추얼 후회 최소화(CFR) 알고리즘은 불완전 정보 게임에서 내쉬 균형에 수렴한다.
기존 DCFR과 PCFR+ 알고리즘은 고정된 할인 스킴을 사용하여 CFR의 수렴 속도를 개선하였다.
제안한 HS-DCFR과 HS-PCFR+ 알고리즘은 기존 최신 기법들에 비해 수렴 속도가 수 orders of magnitude 빠르다.
Quotes
"HS-DCFR(30)과 HS-PCFR+(30)은 이제 각각 포커 게임과 다른 게임에서 새로운 최신 기법이 되었다."
"HS는 게임별 튜닝 없이도 우수한 성능을 보였다. 이는 DDCFR이 게임별 RL 기반 튜닝을 필요로 하는 것과 대비된다."