核心概念
本文提出將有限理性融入平均場博弈(MFG)的框架,並探討兩種新穎的均衡概念:量化反應均衡(QRE)和后退水平線均衡(RH)。
本研究探討在平均場博弈(MFG)中,如何將有限理性納入模型,並提出兩種新的均衡概念:量化反應均衡(QRE)和后退水平線均衡(RH)。傳統上,MFG 的研究主要集中在尋找納許均衡(NE),這意味著假設所有參與者都是完全理性的。然而,在許多實際情況下,由於資訊處理能力、心理因素和社會考量等限制,個體可能無法表現出完全理性。
QRE 通過引入量化響應函數來解決這個問題,該函數允許參與者根據其對收益的噪聲估計做出決策。換句話說,QRE 中的參與者僅根據其對真實目標的噪聲估計來優化其行為。而 RH 則通過限制參與者的規劃範圍來進一步增強 MFG 中有限理性的建模。與基於模型預測控制(MPC)的 MFG 變體不同,本研究分析了由此產生的新后退水平線均衡,並專注於在離散時間設定中學習此類均衡。
除了更逼真之外,引入有限理性還可能帶來易處理性方面的優勢。計算 MFG 的 NE 可能很困難,因此促使人們尋找替代的均衡概念。本研究表明,在某些假設下,可以使用定點迭代(FPI)來計算 QRE。此外,QRE 解決方案可以看作是具有任意精確設計的 NE 近似值。
本研究的主要貢獻包括:
為 MFG 制定了 QRE,將有限理性納入其中,以構建更逼真的 MFG 框架。
整合了一種專為現實參與者的有限前瞻能力量身定制的后退水平線方法。
給出了理論和實驗結果,將 MFG QRE 與現有的均衡概念進行比較。
推廣了已知的虛擬博弈(FP)和 FPI 演算法,用於學習 NE、QRE 和其他均衡。
提供了實驗範例,以證明所提出的學習演算法的能力。
本研究首先回顧了離散時間有限博弈及其相應的 MFG。然後,將常見的和新的均衡概念定義為解決方案概念和多參與者均衡學習演算法的期望結果。為了便於比較,本研究將重點放在非合作均衡上,其中參與者通過優化獨立策略來最大化自身的目標。
本研究提出了兩種學習非合作 MF 均衡的演算法:
廣義定點迭代(GFPI):GFPI 演算法是一種迭代方法,它從一個初始策略開始,並通過重複計算固定點方程的右側來更新策略,直到收斂為止。
廣義虛擬博弈(GFP):GFP 演算法是一種基於學習的演算法,其中每個參與者根據其對其他參與者過去行為的觀察來更新其策略。