本文提出了一種名為MAST的新穎稀疏訓練框架,專門針對價值分解型深度多智能體強化學習(MARL)算法。MAST主要包含以下創新點:
混合TD(λ)目標機制和Soft Mellowmax運算符:
雙緩衝區機制:
基於梯度的拓撲演化:
實驗結果表明,MAST在SMAC基準測試中的多個任務上,相比於其他稀疏訓練方法,能夠實現5倍到20倍的模型壓縮,同時訓練和推理的浮點運算(FLOPs)減少高達20倍,且性能下降不超過3%。這些結果充分展示了MAST在提升價值學習效能方面的顯著優勢。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Pihe Hu, Sha... om arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19391.pdfDiepere vragen