本文研究了在多代理優化和規劃問題中使用語言模型(LLM)設計獎勵函數的問題。我們專注於不安靜的多臂老虎機(RMAB)問題,這是一個用於順序分配有限資源的流行模型。
我們提出了一個社會選擇語言模型(SCLM),它可以從複雜的人類語言偏好提示中設計有效、一致和平衡的獎勵函數。SCLM由兩個組件組成:生成器和裁判。生成器使用LLM驅動的進化搜索來生成候選獎勵函數。裁判使用社會選擇理論來選擇最佳獎勵函數,該理論可以有效地處理多目標性質。裁判包括一個評分器,根據每個偏好子句評估候選函數的一致性,以及一個社會福利函數,根據這些一致性分數選擇最終的獎勵函數。
我們的實驗表明,SCLM顯著優於基線方法,能夠選擇更有效、一致和平衡的獎勵函數。我們還展示了如何使用SCLM來有效地緩解使用人類偏好設計的獎勵函數的風險:對其他代理的意外影響和資源分配的低效。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania