แนวคิดหลัก
오프라인 배드민턴 경기 데이터를 활용하여 선수들의 의사결정 과정을 모방하는 계층적 모방 학습 모델 RallyNet을 제안한다. RallyNet은 선수들의 의도를 반영하는 맥락 공간을 구축하고, 선수 간 상호작용을 기하 브라운 운동으로 모델링하여 보다 현실적인 선수 행동을 생성한다.
บทคัดย่อ
이 연구는 배드민턴과 같은 턴 기반 스포츠에서 선수 행동을 효과적으로 모방하는 RallyNet이라는 새로운 계층적 모방 학습 모델을 제안한다.
- 선수들의 의사결정 과정을 맥락 기반 마르코프 의사결정 과정으로 모델링하여 선수들의 의사결정 의존성을 포착한다.
- 선수들의 경험을 활용하여 선수의 의도를 나타내는 맥락 공간을 구축하고, 선수가 의도한 행동을 따르도록 한다. 이를 통해 부분적으로 잘못된 결정이 전체 행동에 미치는 영향을 줄일 수 있다.
- 선수 간 상호작용을 기하 브라운 운동으로 모델링하여 더욱 현실적인 선수 행동을 생성한다.
실험 결과, RallyNet은 기존 오프라인 모방 학습 방법과 최신 턴 기반 감독 학습 방법을 16% 이상 능가하는 성능을 보였다. 또한 다양한 실용적 활용 사례를 제시하여 RallyNet의 적용 가능성을 입증하였다.
สถิติ
배드민턴 경기 데이터셋은 2018년부터 2021년까지 31명의 선수가 참여한 75경기, 180세트, 4,325 랠리, 43,191 타구로 구성된다.
랜덤 에이전트와 규칙 기반 에이전트의 평균 규칙 기반 에이전트 정규화 점수(MRNS)는 각각 -와 1이다.
RallyNet은 기존 방법들보다 적어도 16% 더 높은 MRNS 성능을 보였다.
คำพูด
"오프라인 데이터를 활용하여 턴 기반 스포츠 선수 행동을 모방하는 것은 기존 방법으로는 어려운 과제이다."
"RallyNet은 선수들의 의사결정 과정을 맥락 기반 마르코프 의사결정 과정으로 모델링하고, 선수들의 경험을 활용하여 의도를 나타내는 맥락 공간을 구축함으로써 보다 현실적인 선수 행동을 생성할 수 있다."
"RallyNet은 선수 간 상호작용을 기하 브라운 운동으로 모델링하여 더욱 현실적인 선수 행동을 생성할 수 있다."