Core Concepts
잔여 신경망(ResNet)을 DouZero 모델에 적용하여 성능을 크게 향상시켰으며, 입찰 시스템을 추가하여 인간 플레이어와의 경쟁에서도 우수한 성과를 달성했다.
Abstract
이 연구는 DouDizhu라는 복잡한 3인 협력-대결 게임에 대한 강화학습 모델을 개선하였다. 기존의 DouZero 모델은 다층 퍼셉트론(MLP)을 사용했지만, 이 연구에서는 잔여 신경망(ResNet)을 도입하여 성능을 향상시켰다.
잔여 신경망 구조:
2개, 4개, 6개의 잔여 블록을 MLP에 추가하여 실험
잔여 블록 수가 늘어날수록 승률이 향상되었지만, 6개 이상에서는 수렴 속도가 느려지는 문제 발생
입찰 시스템 추가:
플레이어의 현재 패와 상대방의 점수를 분석하여 지주가 되는 것이 유리한지 판단
입찰 시스템이 적용된 모델은 인간 플레이어들을 일관적으로 이겼음
결과적으로 잔여 신경망과 입찰 시스템을 결합한 DouRN 모델은 기존 DouZero 모델을 능가하는 성능을 보였다.
Stats
2개 잔여 블록 모델의 경우 3.0 × 10^5 단계에서 지주 승률 52.02%, 농민 승률 53.77%를 기록했다.
4개 잔여 블록 모델의 경우 6.0 × 10^5 단계에서 지주 승률 55.80%, 농민 승률 56.40%를 기록했다.
6개 잔여 블록 모델의 경우 6.0 × 10^5 단계에서 지주 승률 57.04%, 농민 승률 57.03%를 기록했다.