Belangrijkste concepten
기대 흐름 네트워크(EFlowNet)는 스토캐스틱 환경에서 우수한 성능을 보이며, 2인 영-합 게임에서 강력한 게임 플레이 에이전트를 학습할 수 있다.
Samenvatting
이 논문은 GFlowNet을 스토캐스틱 환경과 게임 환경으로 확장한다.
- 기대 흐름 네트워크(EFlowNet):
- 스토캐스틱 환경에서 GFlowNet을 일반화한 모델
- 환경의 불확실한 전이를 통합하는 기대 상세 균형(EDB) 제약 조건을 제안
- 이론적 분석을 통해 EFlowNet이 만족스러운 수렴 특성을 가짐을 보임
- 적대적 흐름 네트워크(AFlowNet):
- 2인 영-합 게임에서 EFlowNet 에이전트들이 서로 대항하는 모델
- 균형 솔루션의 존재와 유일성을 증명
- 2인 영-합 게임을 위한 새로운 궤적 균형(TB) 손실 함수를 제안
- 실험:
- 단백질 설계 문제에서 EFlowNet이 다른 방법보다 우수한 성능을 보임
- 틱-택-토와 커넥트-4 게임에서 AFlowNet이 AlphaZero를 능가하는 성능을 달성
Statistieken
단백질 설계 문제에서 EFlowNet은 다양한 고보상 상태를 빠르게 샘플링할 수 있다.
틱-택-토 게임에서 AFlowNet2와 AFlowNet15는 각각 Elo 점수 334.8 ± 15.5와 231.1 ± 91.3을 달성했다.
커넥트-4 게임에서 AFlowNet10과 AFlowNet15는 AlphaZero보다 약 800 Elo 점수 높은 성능을 보였다.
커넥트-4 게임에서 AFlowNet은 80% 이상의 최적 수를 선택할 수 있게 되었다.
Citaten
"EFlowNets marginalize over the uncertainty of the environment's transitions: they aim to sample each action in proportion to the expected total reward available if the action is taken."
"We show that AFlowNets learn to find above 80% of optimal moves in Connect-4 via self-play and outperform AlphaZero in tournaments."