Основные понятия
本稿では、ヨーロッパの言語多様性を包括的にサポートするために、EUの24の公用語すべてに対応した2つの多言語大規模言語モデル(LLM)、「Ours (Base)」と「Ours (Instruct)」の開発について報告する。
Аннотация
論文情報
Mehdi Ali, et al. (2024). Progress Report: Towards European LLMs. arXiv:2410.03730v1 [cs.CL].
研究目的
本研究は、既存の多言語LLMが英語中心であるという制限に対処し、ヨーロッパの言語多様性を包括的にサポートする、EUの24の公用語すべてに対応したLLMを開発することを目的とする。
方法
- 約4兆トークンの大規模コーパスを構築し、その約60%を英語以外のデータとした。
- 24のEU公用語すべてに対応したカスタム多言語トークナイザーを開発し、テキストの断片化を抑制した。
- 70億パラメータのデコーダのみのTransformerベースモデルを、因果言語モデリングの学習目標を用いて学習させた。
- 英語データ、多言語データ、英語からドイツ語への翻訳データを含む命令調整データセットを用いて、命令調整モデルを学習させた。
主な結果
- 開発したLLMは、ARC、HellaSwag、MMLU、TruthfulQAなどの多言語ベンチマークにおいて、競争力のある性能を示した。
- 特に、HellaSwagではすべてのモデルの中で最も高い精度を達成し、ARCでも上位のスコアを獲得した。
- これらの結果は、開発したモデルが、多様な言語を用いた複雑な推論タスクにおいて優れた能力を持つことを示唆している。
結論
本研究は、ヨーロッパの言語多様性をサポートするLLM開発に向けた重要な一歩であり、多言語環境におけるLLM技術の普及を促進するものである。
限界と今後の研究
- ドメイン固有の知識や、数学・コーディング能力の向上など、更なる性能向上が求められる。
- 今後の研究では、モデルの専門知識分野における性能向上、数学およびコーディング能力の強化に焦点を当てる。
Статистика
学習データセットには約4兆トークンが含まれており、そのうち60%は英語以外のデータである。
EUの公用語24言語のうち、英語が41.70%と最も多く、次いでフランス語(9.10%)、ドイツ語(8.72%)、スペイン語(7.99%)と続く。
モデルの学習には、最大512基のNVIDIA A100 GPUを搭載したJUWELS Booster 3スーパーコンピュータを使用した。
命令調整には、8基のNVIDIA H100 GPUを用いて2.5日間、3エポックの学習を行った。
Цитаты
"To address the aforementioned limitations, we present our effort in developing a multilingual base model that has been trained on top of all 24 European official languages and the corresponding instruction-tuned model."
"Unlike the previously mentioned efforts, we specifically address 24 official European languages and focus on ensuring that a large fraction of the training data is composed of non-English data, representing a major step towards European LLMs."
"Our ongoing efforts aim to further improve the models’ performance and efficiency, ensuring they can better serve the needs of diverse European communities and facilitate the broader democratization of LLM technology across multilingual environments."