核心概念
大型推薦模型的訓練效率可以透過縮減訓練數據規模和加速模型收斂來提升,例如持續降採樣和持續蒸餾技術。
這篇研究論文探討如何提升大型推薦模型 (LRMs) 的數據效率,特別是在廣告點擊預測的應用上。
數據規模的影響
大型推薦模型的訓練數據規模龐大,通常包含數千億筆範例,這對運算成本和研發速度造成負擔。
研究發現,僅僅擴大模型規模、訓練數據和運算資源的效益已逐漸達到瓶頸。
數據收斂的概念
模型準確度會隨著訓練數據集規模的增加而提升,但最終會達到飽和點,稱為「收斂點」。
在模型更新上線後,必須確保模型準確度在 A/B 測試期間保持穩定,即模型已收斂。
提升數據效率的策略
1. 數據降採樣
廣告點擊預測通常面 labelled data imbalance 的問題,負樣本(未點擊)數量遠超過正樣本(點擊)。
可以對負樣本進行大幅降採樣,並透過 importance re-weighting 來減輕預測偏差,而不會影響模型準確度。
論文建議採用「持續降採樣」,在整個訓練過程中(包括線上訓練)持續進行降採樣,以加速模型收斂。
2. 持續蒸餾
知識蒸餾是一種常見的模型壓縮技術,將大型教師模型的知識轉移到小型學生模型。
傳統的蒸餾方法在訓練過程中的某個固定點停止,而「持續蒸餾」則將蒸餾過程延伸到線上訓練階段。
實驗結果顯示,持續蒸餾可以顯著加速模型收斂,並且使用更少的訓練數據。
3. 模型規模和訓練數據的權衡
在固定的運算資源預算下,需要在模型規模和訓練數據量之間取得平衡。
研究發現,對於在超過一千億筆範例上訓練的廣告點擊模型,存在一個最佳的模型規模和降採樣率配置。
主要結論
透過採用持續降採樣、持續蒸餾和模型規模與訓練數據的聯合調整等策略,可以減少訓練時間、提高系統效率並加速模型開發。
統計資料
使用持續蒸餾技術訓練的模型,相較於在訓練後期才停止蒸餾的模型,使用的數據量減少了 35%。
在 4000 TPU 小時的固定訓練預算下,存在一個最佳的模型規模和降採樣率配置,可以達到最佳的模型品質。