이 논문은 불완전한 정보 상황에서 두 명의 자기 이해적인 독립 플레이어가 순차적으로 협상하는 문제를 다룹니다. 제안된 의사결정 모델은 간접 협상을 수행하고 상대방의 모델을 학습하여 협상에 성공할 수 있도록 돕습니다. 방법론적으로 이 논문은 휴리스틱하게 동기부여된 자기 이해적 플레이어의 협상을 베이지안 학습 및 마르코프 의사결정 프로세스 프레임워크로 제시합니다. 보상 함수의 특별한 형태는 플레이어들이 간접적으로 협상하도록 암시적으로 동기부여합니다. 이를 통해 플레이어들은 상대방의 모델을 학습하고 협상 범위를 제한할 수 있습니다. 개인 수익성과 게임 잠재력 활용 간의 절충은 플레이어별 가중치로 표현됩니다. 이는 플레이어의 선호도와 부분적으로 인간 협상의 행동적 측면을 반영합니다. 제안된 접근법은 플레이어 간 어떠한 개인 정보나 모델도 교환하지 않으므로 플레이어의 프라이버시를 완전히 보장합니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tati... lúc arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06566.pdfYêu cầu sâu hơn