我們提出了一個社會選擇語言模型(SCLM),以處理複雜的人類語言偏好提示中的多目標性質,並為多代理規劃問題(特別是不安靜老虎機)設計有效、一致和平衡的獎勵函數。


coremsg

平衡行動-針對llm設計的不安靜老虎機獎勵的優先化策略


平衡行動:針對LLM設計的不安靜老虎機獎勵的優先化策略



我們提出了一個中央答案模型(CAM),能夠從多個獨立的代理回答中聚合出最終答案,在多代理情境下的具身問答任務中表現優於其他基線方法。



本文提出了一種新的生成式多代理架構ITCMA-S,它包含了個體代理的基本框架和支持多代理社會互動的LTRHA框架。這種架構使得代理能夠識別和過濾有害於社會互動的行為,引導他們選擇更有利於社會氛圍的行動。



可以代理自發形成社會嗎?引入一種新的生成式多代理架構以激發社會的自發性