この論文は、マルチプレイヤーの資源共有ゲームにおいて、公正な報酬配分がどれほど重要であり、その最適化方法に焦点を当てています。特に、一つ目の設定では、リソースの平均報酬が既知である場合と、二つ目の設定ではオンラインシナリオでリアルタイムなフィードバックを受け取りながら行動する場合について検討しています。独自のUpper Confidence Bound(UCB)アルゴリズムを開発し、最初のプレイヤーの最悪ケース後悔を最小限に抑えます。これらの研究結果は、実世界の応用や他の関連研究へ示唆を提供しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mevan Wijewa... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.05300.pdfDeeper Inquiries