Основные понятия
잔여 신경망 구조와 입찰 시스템을 도입하여 DouZero 모델의 성능을 크게 향상시켰다.
Аннотация
이 연구는 DouDizhu 게임에 대한 강화학습 모델을 개선하기 위해 두 가지 핵심 기술을 도입했다:
잔여 신경망 구조 (ResNet) 적용:
DouZero 모델의 다층 퍼셉트론 (MLP) 구조에 ResNet 블록을 추가하여 모델의 깊이와 복잡성을 높였다.
이를 통해 모델이 게임 플레이 경험을 더 잘 학습하고 복잡한 전략을 탐색할 수 있게 되었다.
2, 4, 6개의 ResNet 블록을 추가한 모델을 비교한 결과, 4개의 ResNet 블록이 가장 좋은 성능을 보였다.
입찰 시스템 도입:
게임 시작 시 플레이어가 지주가 될지 결정하는 입찰 과정에 대한 의사결정 시스템을 추가했다.
플레이어의 현재 패와 상대방의 입찰 점수를 분석하여 지주가 되는 것이 유리한지 판단한다.
이 시스템을 통해 모델이 지주가 되는 상황을 더 잘 활용할 수 있게 되었다.
이러한 개선을 통해 DouRN 모델은 기존 DouZero 모델보다 월등한 성능을 보였다. 특히 인간 플레이어와의 대결에서 우위를 점했다.
향후 연구 방향으로는 더 큰 신경망 구조 검증, 몬테카를로 탐색 기법 도입, 오프-정책 학습 기법 적용 등이 있다.
Статистика
DouRN 모델이 DouZero 모델보다 3.0 × 105 학습 단계에서 지주로 52.02%, 농민으로 53.77%의 승률을 보였다.
DouRN 모델이 DouZero 모델보다 6.0 × 105 학습 단계에서 지주로 55.80%, 농민으로 56.40%의 승률을 보였다.