核心概念
面對專用訓練資料不足和模型推理成本限制,應根據可負擔的訓練成本和專用資料集大小,選擇合適的預訓練策略,例如基於聚類的重要性抽樣或投影網路,以在有限資源下訓練高效能小型專用語言模型。
摘要
小型專用語言模型訓練策略:兼顧效率與效能
這篇研究論文探討在專用訓練資料不足和模型推理成本限制下,如何訓練高效能的小型專用語言模型。作者比較多種預訓練策略,並根據可負擔的訓練成本和專用資料集大小,提出具體建議。
研究背景
大型語言模型 (LLM) 雖然功能強大,但推理成本高昂,不適用於資源有限的應用。小型語言模型 (SLM) 雖然推理效率高,但模型容量有限,僅適用於特定領域。
研究問題
如何在專用訓練資料有限的情況下,訓練出高效能的專用小型語言模型?
研究方法
作者比較多種預訓練策略,包括:
- **直接訓練小型模型:**僅使用通用預訓練資料或專用資料訓練小型模型。
- **模型蒸餾:**使用大型模型指導小型模型的訓練。
- **基於聚類的重要性抽樣 (SLM-is):**根據專用資料的聚類分佈,對通用預訓練資料進行重新取樣,訓練小型模型。
- **投影網路 (SLM-pn):**訓練一個大型模型,並將其參數線性投影到多個小型模型中,每個小型模型對應一個聚類。
研究結果
- **模型微調至關重要:**無論採用哪種預訓練策略,都需要對模型進行微調才能達到良好的效能。
- **模型蒸餾成本效益不高:**雖然模型蒸餾可以提升效能,但考慮到整體訓練成本,其效益並不顯著。
- **基於聚類的重要性抽樣適用於高預算情況:**當可負擔較高的專用訓練成本時,SLM-is 能夠取得最佳效能。
- **投影網路適用於低預算情況:**當需要訓練多個專用模型且預算有限時,SLM-pn 是較好的選擇。
研究結論
作者建議根據可負擔的訓練成本和專用資料集大小,選擇合適的預訓練策略:
- **高預算、單一領域:**SLM-is
- **低預算、多個領域:**SLM-pn
研究意義
這項研究為資源有限的應用程式提供了訓練高效能小型專用語言模型的實用指南。
統計資料
使用 100 萬、800 萬和 6400 萬個詞彙量的資料集進行專用領域訓練。
小型語言模型 (SLM) 的推理速度比大型語言模型 (LLM) 快約 4 倍。
SLM-is 在 100 萬個詞彙量的專用資料集上,其效能優於規模更大的模型,且訓練成本更低(低於 130 GPU 小時)。
SLM-pn 和 SLM-mix 在推理時與 SLM 一樣小,但在預訓練期間,它們的參數數量比 LLM 還要多。