Core Concepts
大規模言語モデルをエストニア語に適応させるための効率的な方法として、モノリンガルの事前学習とクロスリンガルの指示チューニングの組み合わせが有効であることを示す。
Abstract
本論文では、エストニア語への大規模言語モデルの適応に焦点を当てている。
まず、Llama 2モデルを使って、モノリンガルの事前学習とクロスリンガルの指示チューニングを組み合わせる方法を検討した。その結果、モノリンガルの事前学習を行った上でクロスリンガルの指示チューニングを行うことで、エストニア語タスクの成績が大幅に向上することが分かった。
さらに、高品質な英語の指示と会話データを追加することで、エストニア語の常識推論やマルチターンの会話能力が向上することを示した。これにより、オープンソースの指示フォロー型の大規模言語モデル「LLAMMAS」を開発した。
また、エストニア語の一般タスクの指示データセット「Alpaca-est」も公開した。これらの成果は、エストニア語の大規模言語モデルの開発に向けた重要な一歩となる。
Stats
事前学習データを5Bトークンまで増やすことで、エストニア語タスクの成績が向上した。
英語の高品質な指示データを追加することで、エストニア語の常識推論とマルチターンの会話能力が向上した。
Quotes
"モノリンガルの事前学習を行った上でクロスリンガルの指示チューニングを行うことで、エストニア語タスクの成績が大幅に向上する"
"高品質な英語の指示と会話データを追加することで、エストニア語の常識推論やマルチターンの会話能力が向上する"