核心概念
MoNTA 是一種基於網路流量感知的平行優化方法,透過最大化 AllToAll 通訊效率,加速混合專家 (MoE) 模型的訓練。
本研究論文題為「MoNTA:基於網路流量感知的平行優化加速混合專家訓練」,作者為上海燧原科技有限公司的郭景明、劉焱、孟宇、陶智偉、劉邦蘭、陳剛和李翔。
研究背景
混合專家 (MoE) 是一種先進的模型架構,它將多個來自不同領域的專家模型組合成一個單一的超級模型。這種方法允許模型在不顯著增加訓練和推理的計算成本的情況下進行擴展,同時最大限度地提高模型性能。然而,目前的分布式訓練框架沒有考慮到通訊的最終優化,特別是對於大型基礎模型。
研究目的
本研究旨在提出一種網路流量感知的平行優化方法,根據通訊量、訓練叢集的節點間和節點內網路拓撲結構,選擇最佳的平行策略。
研究方法
本研究提出了一種名為 MoNTA 的網路流量感知平行優化方法。MoNTA 會根據 AllToAll 流量輸入和叢集網路拓撲輸入,選擇最佳的 AllToAll 流水線區塊大小,並建立各種優化策略的效能模型,以確定最終策略。
主要發現
實驗結果顯示,與 DeepSpeed 相比,MoNTA 在 8 卡張量平行下的 AllToAll 通訊效能提升了 8 倍。此外,與基準相比,使用 16 個 A800 卡訓練一個 2x70B 模型,序列長度為 8K,整體延遲效能提升了 13%。
主要結論
MoNTA 是一種有效的 MoE 訓練加速方法,透過最大化 AllToAll 通訊效率,顯著提升了訓練速度。
研究意義
本研究為大型 MoE 模型的訓練提供了一種新的優化思路,有助於推動大型語言模型的發展和應用。
研究限制與未來方向
未來研究方向包括分析核心排程對 MoE 平行優化效能的影響,完善訓練和推理的效能模型,並將其整合到框架和運算器實現中。此外,類似於 Flux,透過軟體核心融合實現 AllToAll 和專家計算的重疊也是未來探索的方向。
統計資料
與 DeepSpeed 相比,MoNTA 在 8 卡張量平行下的 AllToAll 通訊效能提升了 8 倍。
使用 16 個 A800 卡訓練一個 2x70B 模型,序列長度為 8K,整體延遲效能提升了 13%。
AllToAll 通訊時間可能佔總時間的 30% 以上。
InfiniBand 的單向頻寬為 25GB/s 或 50GB/s,節點內與節點間頻寬比為 8:1 到 18:1。