本文提出了一種新的計算管道,使多智能體強化學習(MARL)代理能夠通過對話語料庫的語言基礎來學習可解釋的溝通協議,以實現在臨時團隊中的有效協作。
具體來說,該方法使用由大型語言模型(LLM)代理在互動團隊情境中生成的合成數據,將MARL代理的溝通空間與人類自然語言的嵌入空間對齊。這不僅保持了任務性能,還加速了溝通的出現。此外,學習到的溝通協議展現了在未見過的隊友和新任務狀態下的零樣本泛化能力。
實驗結果表明,引入語言基礎不僅維持了任務性能,還加快了溝通的出現。此外,學習到的溝通協議展現了在未見過的隊友和新任務狀態下的零樣本泛化能力。這項工作為在現實世界的團隊合作中實現人工智能代理與人類之間的有效溝通和協作奠定了基礎。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Huao Li, Hos... ב- arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17348.pdfשאלות מעמיקות