Core Concepts
MaLA-500は、534言語をカバーする大規模な多言語言語モデルであり、低資源言語に対する性能が大幅に向上している。
Abstract
本研究では、大規模言語モデル(LLM)の多言語対応を拡張するため、LLaMA 2をベースモデルとして、語彙拡張と継続プリトレーニングを行い、MaLA-500を開発した。
語彙拡張では、Glot500-cデータセットを用いて、LLaMA 2の32,000語の語彙を260,164語に拡張した。これにより、非ラテン文字言語の表現力が大幅に向上した。
継続プリトレーニングでは、LoRAを用いた効率的な手法を採用し、Glot500-cデータセットを使って学習を行った。
内部評価では、Glot500-cテストセットにおいて、MaLA-500がベースラインのLLMよりも優れた言語モデル尤度を示した。
外部評価では、SIB200とTaxi1500のベンチマークタスクで、MaLA-500が大幅な性能向上を達成した。
言語ファミリー別の分析では、高資源言語ファミリーの性能が良好であり、低資源言語ファミリーでも大きな改善が見られた。
少shot学習の分析では、shot数の増加に伴い性能が向上し、6-10shotで最高の精度を達成した。
Stats
Glot500-cデータセットは合計1億文からなり、言語ごとの文数は60万~800万文の範囲にある。
SIB200ベンチマークは177言語、Taxi1500ベンチマークは351言語をカバーしている。
Quotes
"MaLA-500は、534言語をカバーする大規模な多言語言語モデルであり、低資源言語に対する性能が大幅に向上している。"
"MaLA-500は、SIB200とTaxi1500のベンチマークタスクで、大幅な性能向上を達成した。"