本研究旨在解決兩個主要問題:1)確定沒有強制合作的團隊合作博弈的納什均衡;2)提出一個多智能體多臂老虎機系統,能夠學習並收斂到該博弈的納什均衡的近似值。
研究採用了以下方法:
基於心理學和博弈論的洞見,將團隊合作建模為一個非合作性的聚合博弈。這種博弈模型捕捉了團隊成員之間的自利行為,並考慮了團隊績效評估作為效用函數的一部分。
確定了這種新型團隊合作博弈的納什均衡,並發現它們展現了一般公共物品博弈中觀察到的均衡變體,受到我們模型中獨特元素(如團隊評估函數和玩家專長)的影響。
提出了一個多智能體多臂老虎機框架,其中智能體學習策略以逼近該博弈的納什均衡。這建立在Leslie的學習博弈結果之上,將個人工作貢獻分配到團隊任務視為一個具有Boltzmann行動選擇的多臂老虎機問題。
通過實證驗證了提出的多智能體多臂老虎機系統,證明了學習策略確實收斂到博弈的近似納什均衡。此外,還分析了任務類型、評估難度和專長水平等因素對團隊生產力的影響。
擴展分析了超越傳統聚合博弈理論可分析的情況,研究了智能體在面臨不連續評估函數(類似通過/不通過評估)時的政策。
總的來說,本研究提出了一個新的團隊合作博弈模型,並開發了一個多智能體學習框架,為更好地理解自願性協作動態提供了理論和實踐基礎。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Alej... om arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17214.pdfDiepere vragen