この論文は、マルチプレイヤーの資源共有ゲームにおいて、公正な報酬配分がどれほど重要であり、その最適化方法に焦点を当てています。特に、一つ目の設定では、リソースの平均報酬が既知である場合と、二つ目の設定ではオンラインシナリオでリアルタイムなフィードバックを受け取りながら行動する場合について検討しています。独自のUpper Confidence Bound(UCB)アルゴリズムを開発し、最初のプレイヤーの最悪ケース後悔を最小限に抑えます。これらの研究結果は、実世界の応用や他の関連研究へ示唆を提供しています。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Mevan Wijewa... às arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.05300.pdfPerguntas Mais Profundas