Feng, Z., Marwah, T., Mackey, L., Alvarez-Melis, D., & Fusi, N. (2024). Adapting Language Models via Token Translation. arXiv preprint arXiv:2411.00593.
本研究旨在解決將預先訓練好的大型語言模型 (LLM) 應用於新領域文本時,所面臨的壓縮率下降、推理成本增加以及語義對齊度降低等問題。
研究提出了一種名為稀疏Sinkhorn詞彙轉換 (S2T2) 的演算法。該演算法無需平行語料庫,僅需目標領域的樣本數據和預先訓練好的LLM權重,即可學習訓練領域詞彙和目標領域詞彙之間的轉換關係。S2T2首先在目標領域上訓練一個新的詞彙表,然後學習將每個目標領域詞彙轉換為訓練領域詞彙的稀疏分佈,並利用預先訓練好的LLM預測下一個訓練領域詞彙,最後將其轉換回目標領域詞彙的稀疏分佈。
實驗結果顯示,S2T2能有效提升LLM在蛋白質序列建模任務上的表現。與使用原始詞彙表或直接微調新詞彙表的模型相比,使用S2T2初始化的模型在困惑度和位元/位元組 (BpB) 指標上均有顯著提升。此外,從較小、成本較低的模型學習到的詞彙轉換可以直接遷移到更大、更強大的模型,從而在降低成本的同時獲得S2T2的優勢。
S2T2是一種有效的LLM持續微調技術,尤其適用於處理分佈外數據。透過詞彙轉換,S2T2能夠有效地將預先訓練好的LLM知識遷移到新的領域,提高模型的性能。
本研究為LLM的領域適應提供了新的思路,並為蛋白質序列建模等領域提供了有效的解決方案。
未來研究方向包括將S2T2擴展到程式碼和圖像等其他模態,以及將訓練領域和目標領域的詞彙表結合起來,以構建更有效的“多領域”LLM。
翻譯成其他語言
從原文內容
arxiv.org
深入探究