Core Concepts
多言語大規模言語モデルの性能を左右する主要な要因は、事前学習データの量、言語の特性(言語系統、文字体系)、および一般的な言語リソースの有無である。
Abstract
本研究は、6種類の多言語大規模言語モデルを204言語にわたるSIB-200データセットで評価し、その性能に影響を与える要因を分析した。
全言語(ALL)の場合、事前学習データの有無が最も重要な要因となる。既知言語(SEEN)の場合は、事前学習データの量が最も影響する。一方、未知言語(UNSEEN)の場合は、言語の文字体系や言語系統が重要となる。
これらの結果は、多言語NLPシステムの開発において、言語の特性を考慮し、効果的な多言語学習手法を設計することの重要性を示唆している。モデルのサイズや構造は、最も重要な要因を大きく変化させないことも明らかになった。
Stats
GPT-3.5モデルでは、一般的な言語リソースレベルが2.5以下の言語と以上の言語の間で、有意な性能差がある(p < 0.001)。
mBERTとXLM-Rモデルでは、事前学習データの割合が性能に大きな影響を与える。