本文提出了一种需求感知的定制化多智能体通信协议(DCMAC)。与现有工作不同,DCMAC不是基于本地信息预测队友模型,而是通过解析从队友接收到的简单消息来获取队友需求,从而生成定制化消息。这种方法可以减少预测过程中产生的不确定性,提高学习效率。
为了加速训练进度,DCMAC采用了基于最大回报上界的训练范式。在训练模式下,使用全局观察训练理想策略作为指导模型,并将其知识迁移到目标策略。在测试模式下,利用需求损失函数和时间差损失函数更新需求解析模块和定制消息生成模块。
实验结果表明,DCMAC在无限制通信和通信受限场景下都显著优于基准算法。在通信受限环境中,DCMAC的性能接近无限制通信的算法,体现了其在有限通信资源下的高效利用。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies