我們提出了一個社會選擇語言模型(SCLM),以處理複雜的人類語言偏好提示中的多目標性質,並為多代理規劃問題(特別是不安靜老虎機)設計有效、一致和平衡的獎勵函數。
我們提出了一個中央答案模型(CAM),能夠從多個獨立的代理回答中聚合出最終答案,在多代理情境下的具身問答任務中表現優於其他基線方法。
本文提出了一種新的生成式多代理架構ITCMA-S,它包含了個體代理的基本框架和支持多代理社會互動的LTRHA框架。這種架構使得代理能夠識別和過濾有害於社會互動的行為,引導他們選擇更有利於社會氛圍的行動。