核心概念
多言語トレーニングアプローチを用いることで、小規模言語のための高性能な大規模言語モデルを作成できる。
要約
本研究では、34B Poro モデルを紹介する。このモデルは、フィンランド語、英語、プログラミング言語の合計1兆トークンのデータでプリトレーニングされた。
- 多言語トレーニングアプローチにより、既存のフィンランド語モデルを大幅に上回る性能を実現した。
- 英語やプログラミング言語の生成においても、同クラスの他のオープンモデルと競争力のある結果を示した。
- 特にフィンランド語の生成能力が高く、人間による評価でも優れた結果を得た。
- 英語-フィンランド語の機械翻訳においても、最先端のモデルを上回る性能を発揮した。
このように、限定的な多言語トレーニングアプローチを用いることで、小規模言語のための高性能な大規模言語モデルを作成できることを示した。
統計
フィンランド語データは32Bトークンで、全トレーニングデータの13%を占める。
英語データは542Bトークンで、全体の54.5%を占める。
プログラミング言語データは315Bトークンで、全体の31.7%を占める。
英語-フィンランド語の翻訳ペアは8Bトークンで、全体の0.8%を占める。
引用
"多言語性は呪いではなく祝福であり、小規模言語のモデルの性能を大幅に向上させることができるはずだ。"
"限定的な多言語トレーニングアプローチを用いることで、小規模言語のための高性能な大規模言語モデルを作成できる。"