核心概念
大型語言模型(LLM)在策略決策中存在系統性偏差,影響其在遊戲環境中的表現,特別是在非零和賽局中,這些偏差會導致表現顯著下降。
研究背景
大型語言模型(LLM)在處理日常任務中應用日益廣泛,然而,它們在複雜社會場景中的策略決策能力仍未得到充分探索。為了充分發揮LLM的潛力,了解其在複雜社會場景中的運作能力至關重要。賽局理論已被廣泛應用於理解現實世界中的互動,為評估LLM的策略決策能力提供了一個良好的框架。
研究方法
本研究選擇了兩種典型的雙玩家非零和賽局:獵鹿賽局和囚徒困境,來探討LLM在其中的決策能力和表現。研究人員對GPT-3.5、GPT-4-Turbo、GPT-4o和Llama-3-8B進行了結構化評估,通過調整提示詞的順序、收益值和玩家偏好等因素,觀察LLM的行為變化,並分析其背後的偏差。
研究發現
研究發現,這些LLM在進行賽局決策時,至少受到以下一種系統性偏差的影響:位置偏差、收益偏差或行為偏差。這表明LLM在進行策略決策時並未完全依賴邏輯推理。當賽局配置與影響偏差不一致時,LLM的表現會下降。
位置偏差:改變提示詞中動作標籤的呈現順序會影響LLM選擇特定動作標籤的頻率。
收益偏差:改變與不同動作標籤相關的收益值會影響LLM選擇特定動作標籤的頻率。
行為偏差:改變代理玩家和同伴玩家的偏好行為會影響LLM選擇特定動作的頻率。
研究結論
研究結果顯示,LLM在進行策略決策時存在系統性偏差,這些偏差會影響其在遊戲環境中的表現,特別是在非零和賽局中,這些偏差會導致表現顯著下降。研究人員強調,在評估LLM在賽局理論任務中的表現時,應特別注意這些偏差的影響。
研究展望
雖然使用思維鏈提示詞通常可以減少大多數模型中的偏差影響,並有助於減輕性能下降,但這種效果並非在所有模型中都一致。這表明,對某些模型有效的方法可能不是所有模型的通用解決方案。研究人員認為,這些系統性偏差的根源在於LLM推理能力的固有局限性。未來需要進一步努力提高LLM的推理能力,以解決其在系統性偏差方面的限制,使其能夠做出更合理的決策。
統計資料
GPT-3.5、GPT-4-Turbo、GPT-4o 和 Llama-3-8B 在獵鹿賽局中的平均性能下降分別為 32%、25%、34% 和 28%。
GPT-3.5、GPT-4-Turbo、GPT-4o 和 Llama-3-8B 在囚徒困境中的平均性能下降分別為 28%、16%、34% 和 24%。