Belangrijkste concepten
PSRO 프레임워크에서 최적의 하이퍼파라미터 값을 자동으로 결정할 수 있는 가능성을 탐구하고자 한다.
Samenvatting
이 논문은 PSRO 알고리즘의 하이퍼파라미터 값을 자동으로 결정하는 방법을 제안한다.
첫째, 다양한 메타 솔버와 BR 오라클의 하이퍼파라미터를 도입하여 매개변수화된 PSRO (PPSRO)를 제안한다. 이를 통해 기존의 PSRO 변형들과 GDA를 통합할 수 있다.
둘째, PPSRO의 하이퍼파라미터 값 선택 문제를 하이퍼파라미터 최적화 (HPO) 문제로 정의하고, 이를 해결하기 위해 자기 적응형 PSRO (SPSRO)를 제안한다. SPSRO에서는 게임 해결 과정에서 최적의 하이퍼파라미터 값을 자동으로 선택하는 HPO 정책을 학습한다.
셋째, 온라인 HPO 방법의 성능 저하 문제를 해결하기 위해 Transformer 아키텍처 기반의 오프라인 HPO 접근법을 제안한다. 이를 통해 다양한 게임에 적용 가능한 범용적이고 플러그 앤 플레이 방식의 하이퍼파라미터 값 선택기를 개발할 수 있다.
실험 결과, SPSRO with Transformer는 다양한 기준선 대비 우수한 성능을 보였다.
Statistieken
다양한 메타 솔버를 조합하면 단일 메타 솔버를 사용하는 것보다 더 나은 성능을 얻을 수 있다.
Transformer 기반 HPO는 Optuna와 같은 온라인 HPO 방법보다 더 나은 성능을 달성할 수 있다.
주어진 메타 솔버 집합에서 어떤 단일 메타 솔버도 게임 해결 과정에서 다른 메타 솔버들을 일관되게 능가할 수 없다.
Citaten
"PSRO 프레임워크에서 최적의 하이퍼파라미터 값을 자동으로 결정할 수 있는 가능성을 탐구하고자 한다."
"다양한 메타 솔버와 BR 오라클의 하이퍼파라미터를 도입하여 매개변수화된 PSRO (PPSRO)를 제안한다."
"PPSRO의 하이퍼파라미터 값 선택 문제를 하이퍼파라미터 최적화 (HPO) 문제로 정의하고, 이를 해결하기 위해 자기 적응형 PSRO (SPSRO)를 제안한다."