核心概念
追加言語混合比率と学習率の最適な相関関係を見出し、事後学習を通じてLlama-3 8Bと70Bの中国語理解と生成能力を大幅に向上させた。
要約
本研究は、Llama-3 8Bと70Bのモデルに対して、中国語能力を強化するための事後学習(Continual Pre-Training)を行った。事後学習の際の重要なハイパーパラメータである追加言語混合比率(ALMR)と学習率(LR)の最適な相関関係を見出した。ALMRとLRの適切な選択により、中国語関連のベンチマークだけでなく、数学、プログラミング、感情知性などの特定ドメインでもモデルの性能が向上した。最終的に70Bモデルを産業用チャットボットに実装し、良好な結果を得た。
統計
追加言語(中国語)の割合が高いほど、モデルの中国語理解と生成能力が向上する
適切なALMRと学習率の組み合わせにより、数学、プログラミング、感情知性などの特定ドメインでもモデルの性能が向上する
引用
"追加言語混合比率と学習率の最適な相関関係を見出し、事後学習を通じてLlama-3 8Bと70Bの中国語理解と生成能力を大幅に向上させた。"
"適切なALMRと学習率の組み合わせにより、数学、プログラミング、感情知性などの特定ドメインでもモデルの性能が向上した。"