Core Concepts
英語コーパスで事前学習された大規模言語モデルの日本語能力を、日本語コーパスを用いた継続的事前学習によって大幅に向上させることができる。
Abstract
本研究では、英語コーパスで事前学習されたLlama 2モデルを基に、日本語コーパスを用いた継続的事前学習を行い、Swallowと呼ばれる日本語能力が向上したモデルを構築した。
実験の結果、以下のことが明らかになった:
継続的事前学習によって、日本語タスクの成績が大幅に向上した(最大約70%の改善)。特に日本語の質問応答タスクで顕著な改善が見られた。
日本語コーパスの量を増やすにつれ、日本語タスクの成績が単調に向上した。100B tokens程度の日本語コーパスまでは性能向上が続いた。
語彙拡張は、要約タスクを除いて、ほとんどのタスクで性能に影響を与えなかった。
日英対訳コーパスを活用することで、機械翻訳タスクの性能が向上した。
以上の結果から、英語コーパスで事前学習された大規模言語モデルの日本語能力を、効率的に向上させることができることが示された。
Stats
日本語コーパスを100B tokens程度使用することで、日本語タスクの平均スコアが約55%まで向上した。
語彙拡張によって、日本語テキストの生成効率が最大78%向上した。
日英対訳コーパスを活用することで、日英機械翻訳タスクの性能が14-51%向上した。
Quotes
"継続的事前学習によって、日本語タスクの成績が大幅に向上した(最大約70%の改善)。"
"日本語コーパスの量を増やすにつれ、日本語タスクの成績が単調に向上した。100B tokens程度の日本語コーパスまでは性能向上が続いた。"
"語彙拡張は、要約タスクを除いて、ほとんどのタスクで性能に影響を与えなかった。"
"日英対訳コーパスを活用することで、機械翻訳タスクの性能が向上した。"