מושגי ליבה
對於低資源語言的機器翻譯任務,訓練大型語言模型時,大量的平行語料庫數據比數據多樣性更為重要。
研究目標
本研究旨在探討如何將大型語言模型 (LLM) 應用於低資源語言 (LRL) 的機器翻譯任務,並特別關注平行語料庫數據規模和監督式微調 (SFT) 數據多樣性對翻譯效能的影響。
研究方法
研究人員採用了兩階段訓練範式:持續預訓練 (CPT) 和監督式微調 (SFT)。在 CPT 階段,他們探索了三種整合單語和平行語料庫數據的方法:僅使用目標語言單語數據 ("All Mono")、將源語言和目標語言句子拼接後與單語數據混合 ("Mono + parallel (concat)"),以及將源語言和目標語言句子分開並與單語數據混合 ("Mono + parallel (separate)")。在 SFT 階段,他們測試了不同數據組合,包括低資源語言和高資源語言的機器翻譯數據、通用指令微調數據集 (Alpaca、Aya) 以及合成跨語言問答 (XQA) 數據。
主要發現
與高資源語言不同,對於低資源語言,CPT 和 SFT 階段使用大量平行語料庫數據都能顯著提升翻譯效能。
在 CPT 階段,使用拼接後的平行語料庫數據 ("Mono + parallel (concat)") 比僅使用單語數據或將源語言和目標語言句子分開混合更有效。
在 SFT 階段,數據多樣性並未提升翻譯效能,反而會產生負面干擾。多語言 SFT 雖然對低資源語言對的翻譯效能有所提升,但對高資源語言對的翻譯效能略有下降。
增加 SFT 階段的訓練輪次可以有效提升翻譯效能,尤其是在數據量有限的情況下。
主要結論
研究結果顯示,對於低資源語言的機器翻譯任務,訓練大型語言模型時,數據規模比數據多樣性更為重要。大量平行語料庫數據在 CPT 和 SFT 階段都能顯著提升翻譯效能。此外,研究人員建議在 SFT 階段使用多語言數據,並增加訓練輪次以提升模型效能。
研究意義
本研究為低資源語言機器翻譯提供了寶貴的數據利用策略,有助於開發更有效且可擴展的 LLM 翻譯模型。
研究限制與未來方向
本研究的局限性在於缺乏針對低資源語言的可靠神經網路評估指標,因此只能使用基於字串的指標 (如 chrF++) 進行評估。未來研究可以探索更全面的評估方法,並將研究範圍擴展至更多語言,以驗證研究結果的普適性。
סטטיסטיקה
使用拼接後的平行語料庫數據進行持續預訓練,在約 500 萬詞彙量 (約 3 億 token) 後,翻譯效能開始優於僅使用單語數據的模型。
在監督式微調階段,隨著低資源語言平行語料庫數據規模的增加,模型的翻譯效能持續提升,最高可達 100 萬句子。
將監督式微調的訓練輪次增加至 5 輪,平均 chrF++ 分數提升了 3.3 分,其中最大的提升出現在第一輪到第二輪之間 (+2.0 chrF++)。
在 50 萬句的監督式微調數據中,使用多種提示模板比使用單一提示模板的 chrF++ 分數提高了 1.04 分。
在監督式微調階段,將西班牙語-目標語言、英語-目標語言和葡萄牙語-目標語言的機器翻譯數據混合使用,比僅使用西班牙語-目標語言數據的翻譯效能低 2.96 chrF++ 分數。