本文核心概念是,透過將預先訓練好的小型模型權重遷移至大型模型,並結合µTransfer等超參數縮放方法,可以有效提升大型語言模型訓練的效率和穩定性。
本文提出了一種名為 SALT 的兩階段預訓練方法,利用小型語言模型 (SLM) 在大型語言模型 (LLM) 預訓練的早期階段提供軟標籤和數據選擇,從而提高訓練效率和最終模型質量。
本文提出了一種名為 CoLM 的新型小批量核心集選擇方法,旨在解決大型語言模型訓練過程中記憶體需求過高的問題,並有效提升模型效能。
TorchTitan 是一個開源的 PyTorch 分佈式訓練系統,它通過整合和推進最先進的技術(包括 3D 並行化、硬件軟件協同設計解決方案和高效的檢查點機制),簡化了大型語言模型 (LLM) 的預訓練過程,並提高了訓練效率。