本文提出了一种需求感知的定制化多智能体通信协议(DCMAC),旨在优化有限通信资源的利用,减少训练过程中的不确定性,并提高智能体的协作。
具体来说,DCMAC包含以下三个主要模块:
小消息生成模块:智能体会定期广播一个低维的小消息,包含其局部历史观测信息。
队友需求解析模块:接收到队友的小消息后,智能体可以解析出队友的需求。
定制消息生成模块:智能体会根据自身的局部观测和解析出的队友需求,生成定制化的消息来引导队友的行为。
此外,DCMAC还提出了一种基于最大回报上界的训练范式,包括训练模式和测试模式。在训练模式下,使用全局观测训练理想策略作为指导模型,帮助目标策略朝着理想策略收敛。在测试模式下,利用需求损失函数和时间差损失函数更新需求解析模块和定制消息生成模块。
实验结果表明,DCMAC在无通信限制和有通信限制的场景下,都显著优于基准算法。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問