核心概念
機器翻譯可以有效提升多語言大型語言模型的效能,即使訓練資料量遠少於其他模型。
這篇研究論文探討了利用機器翻譯來創建多語言預訓練資料集,並訓練大型語言模型 (LLM) 的效果。
研究目標
探討利用單一高品質來源語言的機器翻譯語料庫,是否能有效地預訓練多語言大型語言模型。
方法
資料集建構:
選擇高品質的英文網路資料集 FineWeb-Edu。
使用 Mistral-7B-Instruct 模型將 FineWeb-Edu 翻譯成法語、德語和西班牙語,創建名為 TransWeb-Edu 的多語言平行語料庫 (約 3000 億個詞元)。
模型預訓練:
基於 Llama 模型架構,使用 TransWeb-Edu 從零開始預訓練一個 13 億參數的模型,命名為 CuatroLLM。
採用單語預訓練設定,隨機從語料庫中提取文件,不刻意創建對齊的翻譯對。
模型評估:
使用 CuatroBen 評估框架,其中包含英語、法語、德語和西班牙語的推理任務,例如 Hellaswag、ARC、TruthfulQA、PAWS-X 和 XNLI。
將 CuatroLLM 與其他多語言和單語 LLM 進行比較,例如 CroissantLLM、Llama3.2、EuroLLM、Qwen2、BLOOM、mGPT、Gemma2、GPT-fr、TinyLlama 和 Pythia。
主要發現
CuatroLLM 在法語、德語和西班牙語的 CuatroBen 測試中表現優異,通常名列前三名。
儘管 CuatroLLM 的訓練資料量遠少於其他模型 (例如 Llama3.2 的 6%),但其效能卻與或優於最先進的多語言模型,例如 Gemma2、EuroLLM、Llama3.2 和 Qwen2。
相較於僅使用通用網路資料預訓練的模型 WebOnlyLLM,使用 TransWeb-Edu 進行預訓練顯著提高了模型在多語言任務上的效能。
在 CuatroLLM-web 模型中加入通用網路資料進行持續預訓練,可以顯著提高模型在問答和摘要任務上的表現。
在 CuatroLLM-cool 模型中加入少量程式碼和問答資料進行冷卻階段訓練,可以進一步提高模型在 CuatroBen 測試中的效能。
結論
本研究提出了一種可擴展的方法,透過機器翻譯來創建高品質的多語言預訓練資料集。
研究結果顯示,即使訓練資料量遠少於其他模型,機器翻譯也能有效提升多語言大型語言模型的效能。
未來研究方向包括擴展支援的語言種類,以及將此方法應用於更大規模的語言模型。
統計資料
CuatroLLM 的訓練資料量約為 Gemma2 的 25%,Llama3.2 的 6%。
CuatroLLM-cool 模型中,冷卻階段訓練資料佔總訓練資料量的 0.2% 以下。