Centrala begrepp
WallFacer提出了一種新的多維度分佈式訓練系統,通過引入額外的並行維度大幅降低通信量,同時提供更靈活的通信配置調整,從而實現長序列模型的高效訓練。
Sammanfattning
本文提出了WallFacer,一個用於長序列模型高效訓練的新型分佈式系統。WallFacer引入了額外的並行維度,大幅降低了通信量,同時提供了更靈活的通信配置調整,以解決當前長序列模型訓練中的效率和可擴展性問題。
具體來說:
- WallFacer採用多維度環形並行化,將GPU分組,在組內進行環形通信,大幅降低了總體通信量。
- WallFacer提供了一種簡單的網格搜索方法,允許用戶根據具體需求選擇最合適的並行化方案,最大化利用可調整的通信框架。
- 在NLP和CV任務上的實驗結果表明,WallFacer相比現有方法可以實現高達77.12%的GPT模型性能提升和114.33%的DiT模型性能提升,展現了其出色的效率和可擴展性。
Statistik
WallFacer-2和WallFacer-4理論上可以分別節省50%和75%的總P2P通信量。