핵심 개념
在有限的計算資源下,針對基於預訓練解碼器語言模型的文本嵌入模型,探討如何通過模型大小、數據量和微調方法的最佳組合,實現高效的對比性微調訓練。
論文資訊
Ziarko, A., Jiang, A. Q., Piotrowski, B., Li, W., Jamnik, M., & Miło´s, P. (2024). Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在探討如何在有限的計算資源下,將預訓練的解碼器語言模型(LLM)高效地微調為高品質的文本嵌入模型。
研究方法
研究人員使用 Pythia 模型套件中的八個不同大小的解碼器模型,並在 BAAI BGE 數據集上進行對比性微調訓練。他們實驗了四種微調方法:完整微調、區塊凍結、僅偏差調整和低秩適配(LoRA)。通過網格搜索,他們找到了在不同計算資源限制下,每種方法的最佳模型大小、數據量和微調超參數。
主要發現
僅偏差調整方法表現不佳,不推薦使用。
LoRA 和區塊凍結方法在較高計算資源限制下表現出色。
對於 LoRA 方法,最佳的秩超參數約為 128,且對模型大小和計算資源限制不敏感。
完整微調適用於較低計算資源限制,而 LoRA 適用於較高計算資源限制。
主要結論
研究人員根據實驗結果,設計了一個演算法,可以根據計算資源限制,自動選擇最佳的微調方法、模型大小、數據量和超參數,從而幫助研究人員在有限的資源下高效地訓練文本嵌入模型。
研究意義
本研究為文本嵌入模型的訓練提供了一個計算資源優化的方案,對於希望利用預訓練語言模型進行文本嵌入任務的研究人員具有重要的參考價值。
研究限制與未來方向
本研究僅使用了 Pythia 模型套件,未來可以探索其他預訓練模型的適用性。
由於計算資源限制,每個實驗只進行了一次,未來可以通過多次實驗來降低結果的隨機性。
未來可以考慮將推理成本納入優化目標。
통계
研究使用了八個不同大小的 Pythia 模型,參數量從 14M 到 2.8B 不等。
計算資源限制設定為六個等級,從 1.5e15 到 1.5e18 FLOP。
使用 BAAI BGE 數據集的英文部分進行微調訓練,該數據集包含 2 億個語義相關的文本對。
LoRA 方法的最佳秩超參數通常為 32 或 128。
當計算資源限制低於 9.06e16 FLOP 時,完整微調表現最佳;而當計算資源限制更高時,LoRA 表現最佳。