核心概念
歐洲研究人員開發了兩個多語言大型語言模型,旨在支持所有 24 種歐盟官方語言,解決現有模型以英語為中心的局限性,並為歐洲的語言多樣性提供更具包容性的解決方案。
這篇研究論文介紹了 OpenGPT-X 專案的初步成果,該專案旨在開發能夠理解和生成所有 24 種歐盟官方語言文字的大型語言模型 (LLM)。
研究目標
開發多語言基礎模型和相應的指令微調模型,以解決現有 LLM 主要關注英語或少數高資源語言的局限性。
通過支持歐洲的語言多樣性,使構建這些模型的技術和專業知識民主化。
方法
該專案開發了兩個多語言 LLM,使用包含約 60% 非英語數據的數據集進行訓練。
研究人員創建了一個自定義多語言分詞器,以解決現有分詞器對英語的偏見,並減少過度文本碎片的問題。
採用 7B Transformer 架構,並使用因果語言建模目標對模型進行訓練。
為了提高模型對不同指令的響應能力,研究人員使用了包含英語、德語和涵蓋所有 24 種歐盟官方語言的多語言數據的數據集對模型進行了指令微調。
主要發現
開發的自定義多語言分詞器在 19 種歐洲語言中顯示出與其他分詞器相似或更低的生育率值,從而實現更長的查詢和文檔處理。
開發的模型在多語言基準測試中表現出具有競爭力的性能,包括 ARC、HellaSwag、MMLU 和 TruthfulQA 的歐洲語言版本。
指令微調模型在 ARC 和 HellaSwag 基準測試中表現出色,表明在多語言環境中具有出色的推理和常識理解能力。
主要結論
該專案的初步結果證明了開發能夠支持歐洲語言多樣性的多語言 LLM 的可行性。
自定義分詞器和以非英語數據為中心的數據集的使用對於實現具有競爭力的性能至關重要。
指令微調顯著提高了模型在各種任務和語言中的性能。
重大意義
OpenGPT-X 專案代表著向更具包容性和代表性的 LLM 技術邁出了重要一步,該技術可以滿足歐洲不同社區的需求。
該專案的成果有可能促進 LLM 技術在多語言環境中的更廣泛應用和民主化。
局限性和未來研究
該專案仍處於初步階段,模型的性能還有進一步提升的空間,特別是在特定領域知識、數學和編碼能力方面。
未來的研究將側重於解決這些局限性,並探索將模型擴展到其他語言和領域。
該專案還計劃在不久的將來公開發布這些模型,以促進更廣泛的研究和開發工作。
統計
訓練數據集包含大約 4 萬億個詞元,其中 13.45% 是策劃數據,其餘 86.55% 來自網絡數據。
41.70% 的詞元來自英語內容。
該模型是一個基於 7B Transformer 的僅解碼器模型,序列長度為 4096 個詞元。
該模型在 JUWELS Booster 3 上進行訓練,該系統包含 936 個計算節點,每個節點包含 4 個 NVIDIA A100 (40 GB) GPU。