Alapfogalmak
打包技術在監督式微調中,對於大型模型和資料集的訓練效率和效能提升有顯著效果,但需根據資料集特性和模型大小選擇合適的打包策略。
本研究論文分析了一種稱為「打包」的微調技術,該技術最初用於預訓練階段,旨在通過組合多個訓練序列以適應模型的最大輸入長度來最大程度地提高硬體資源利用率。
研究動機
儘管打包在預訓練階段已證明有效,但對於監督式微調(SFT)階段,仍缺乏對以下幾點的全面分析:
打包是否可以在保持效能的同時有效提高訓練效率。
適用於打包微調方法的模型和資料集的合適大小。
打包不相關或相關的訓練樣本是否可能導致模型過度忽視或過度依賴上下文。
研究方法
為了探討這些問題,本文對監督式微調(SFT)階段的打包進行了全面分析。具體來說,我們對使用填充和打包的監督式微調(SFT)方法進行了廣泛的比較,涵蓋了從 69K 到 1.2M 的 SFT 資料集和從 8B 到 70B 的模型。
研究結果
我們的比較包括各種基準,例如知識、推理和編碼,以及基於 GPT 的評估、時間效率和其他微調參數,得出以下結論:
使用打包的模型在各種基準測試中平均表現優於使用填充的模型。
隨著模型規模的增長,基於填充和打包的模型在基準測試中的效能差距會越來越大。
調整特定訓練樣本的打包可能會在特定基準測試中產生預期的效能。
與填充相比,打包方法大大減少了訓練時間,使得在大型資料集上微調大型模型成為可能。
使用較長的訓練樣本會增加打包方法處理每個樣本所需的時間,使其不太適合在特別小的資料集上進行訓練。
在打包模式下,批次大小不再與學習率成正比。
將打包應用於只有單輪對話的資料集可能會導致在少樣本基準測試中的效能顯著下降。
研究結論
基於這些發現,我們首次對打包與填充相比的優缺點以及在各種訓練場景中實施打包的實際注意事項進行了全面分析。此外,我們還開放了用於微調和評估的程式碼,並發布了在不同大小的資料集上微調的檢查點,為未來打包方法的研究做出了貢獻。
Statisztikák
WildChat (GPT-4) 資料集大小:69K 個對話。
TULU 資料集大小:326K 個對話。
WildChat (Full) 資料集大小:652K 個對話。
Open-source 1M 資料集大小:1.2M 個對話。
模型大小:LLaMA-3-8B 和 LLaMA-3-70B。