標題:改善地理分佈式語言模型訓練中的訓練時間和 GPU 利用率
作者:Palak, Rohan Gandhi, Karan Tandon, Debopam Bhattacherjee, Venkata N. Padmanabhan
單位:微軟印度研究院
本研究旨在解決訓練大型語言模型時,因 GPU 資源分散於多個資料中心而導致的訓練時間延長和 GPU 利用率低落問題。
研究團隊開發了兩個系統:ATLAS 和 BUBBLETEA。ATLAS 透過使用多個 TCP 連線、採用流水線平行處理跨資料中心訓練、以及智慧型時間頻寬共享等設計,來減少訓練時間。BUBBLETEA 則是在訓練過程中出現的閒置時間段(氣泡)內,安排執行推論工作負載中的預填充階段,以進一步提高 GPU 利用率。
透過結合 ATLAS 和 BUBBLETEA,本研究提出了一種有效的方法,可以顯著縮短地理分佈式語言模型訓練的訓練時間,並提高 GPU 利用率。
本研究對於需要訓練超大型語言模型的研究人員和開發者具有重要意義,因為它提供了一種更有效率且經濟的方式來利用分散式 GPU 資源。
本研究主要關注於密集型模型,未來可以進一步探討如何將 ATLAS 和 BUBBLETEA 應用於混合專家模型。此外,研究團隊也計劃探索使用分塊預填充來進一步減少推論請求的 TTFT。
翻譯成其他語言
從原文內容
arxiv.org
深入探究