核心概念
本文提出了一種名為MAST的新穎稀疏訓練框架,通過同時改善學習目標的可靠性和樣本分佈的合理性,有效提升了在極度稀疏模型中的價值學習效能。
摘要
本文提出了一種名為MAST的新穎稀疏訓練框架,專門針對價值分解型深度多智能體強化學習(MARL)算法。MAST主要包含以下創新點:
-
混合TD(λ)目標機制和Soft Mellowmax運算符:
- 混合TD(λ)目標可以在不同環境中實現最佳性能,並有效降低由於網絡稀疏化而引起的估計誤差。
- Soft Mellowmax運算符可以顯著減少稀疏模型中的嚴重過估問題,而無需引入額外的計算開銷。
-
雙緩衝區機制:
- 通過結合線上和線下樣本,有效降低了由於不當稀疏化而導致的策略不一致性錯誤,提高了訓練的穩定性。
-
基於梯度的拓撲演化:
- 利用上述創新組件,MAST能夠有效地識別出適合於極度稀疏的網絡拓撲,在保持性能的同時實現顯著的模型壓縮和計算加速。
實驗結果表明,MAST在SMAC基準測試中的多個任務上,相比於其他稀疏訓練方法,能夠實現5倍到20倍的模型壓縮,同時訓練和推理的浮點運算(FLOPs)減少高達20倍,且性能下降不超過3%。這些結果充分展示了MAST在提升價值學習效能方面的顯著優勢。
统计
在3m任務中,MAST-QMIX的訓練和推理FLOPs加速達到20倍。
在2s3z任務中,MAST-QMIX的平均訓練和推理FLOPs加速達到10倍。
MAST-QMIX、MAST-WQMIX和MAST-RES分別實現了5倍到20倍的模型壓縮,性能下降不超過3%。