Core Concepts
협력적 목표 지향 설정에서 참여자들은 성공적인 결과를 달성하는 것뿐만 아니라 상호작용 중 투입되는 노력을 암묵적으로 협상한다. 이 연구에서는 두 플레이어가 비전과 언어 관찰을 조정해야 하는 도전적인 대화형 참조 게임을 제안한다. 이 게임에서 학습 신호는 달성된 목표와 플레이어의 추정 노력을 고려하는 점수이다.
Abstract
이 연구는 협력적 목표 지향 설정에서 참여자들이 성공적인 결과를 달성하는 것뿐만 아니라 상호작용 중 투입되는 노력을 암묵적으로 협상한다는 점에 주목한다. 이를 위해 두 플레이어가 비전과 언어 관찰을 조정해야 하는 도전적인 대화형 참조 게임을 제안한다.
게임의 핵심은 다음과 같다:
지도자(guide)는 언어 발화를 통해 추종자(follower)를 특정 퍼즐 조각으로 안내한다.
추종자는 지도자의 지시에 따라 그리퍼를 움직여 퍼즐 조각을 선택한다.
게임의 점수는 성공적인 결과 달성과 플레이어의 추정 노력을 고려하여 계산된다.
연구진은 이 게임에 대한 강화학습 접근법을 제안하고, 휴리스틱 파트너와 신경망 파트너를 활용하여 실험을 수행한다. 실험 결과, 신경망 파트너들은 노력을 더 잘 공유하는 전략을 학습하는 것으로 나타났다.
Stats
게임 보드 크기가 12x12일 때, 성공률(mSR)은 100%, 평균 에피소드 길이(mEPL)는 7.16, 평균 과제 점수(mTS)는 1.75, 평균 공동 노력(mJE)은 1.36이다.
게임 보드 크기가 21x21일 때, 성공률(mSR)은 0.99%, 평균 에피소드 길이(mEPL)는 13.40, 평균 과제 점수(mTS)는 1.74, 평균 공동 노력(mJE)은 1.33이다.
게임 보드 크기가 27x27일 때, 성공률(mSR)은 0.98%, 평균 에피소드 길이(mEPL)는 17.64, 평균 과제 점수(mTS)는 1.73, 평균 공동 노력(mJE)은 1.33이다.
Quotes
"협력적 목표 지향 설정에서 참여자들은 성공적인 결과를 달성하는 것뿐만 아니라 상호작용 중 투입되는 노력을 암묵적으로 협상한다."
"이 연구에서는 두 플레이어가 비전과 언어 관찰을 조정해야 하는 도전적인 대화형 참조 게임을 제안한다."
"게임의 점수는 성공적인 결과 달성과 플레이어의 추정 노력을 고려하여 계산된다."