이 논문은 불완전한 정보 상황에서 두 명의 자기 이해적인 독립 플레이어가 순차적으로 협상하는 문제를 다룹니다. 제안된 의사결정 모델은 간접 협상을 수행하고 상대방의 모델을 학습하여 협상에 성공할 수 있도록 돕습니다. 방법론적으로 이 논문은 휴리스틱하게 동기부여된 자기 이해적 플레이어의 협상을 베이지안 학습 및 마르코프 의사결정 프로세스 프레임워크로 제시합니다. 보상 함수의 특별한 형태는 플레이어들이 간접적으로 협상하도록 암시적으로 동기부여합니다. 이를 통해 플레이어들은 상대방의 모델을 학습하고 협상 범위를 제한할 수 있습니다. 개인 수익성과 게임 잠재력 활용 간의 절충은 플레이어별 가중치로 표현됩니다. 이는 플레이어의 선호도와 부분적으로 인간 협상의 행동적 측면을 반영합니다. 제안된 접근법은 플레이어 간 어떠한 개인 정보나 모델도 교환하지 않으므로 플레이어의 프라이버시를 완전히 보장합니다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések