核心概念
Llama2の多言語機械翻訳性能を評価し、中心言語としてEnglish以外の言語の可能性を探る
要約
本研究では、Llama2の多言語機械翻訳性能を評価しました。Llama2は訓練データに含まれていた言語については高い翻訳性能を示しましたが、訓練データに含まれていない言語については多くの言語で低い性能でした。
モデルサイズを大きくすることで、訓練データに含まれていない言語の翻訳性能が向上しましたが、指示チューニングや少量ショット学習の効果は限定的でした。
また、言語間の言語的特徴の類似性と機械翻訳性能の相関分析を行ったところ、言語間の統語的類似性だけでなく、言語系統や音韻論的特徴なども機械翻訳性能に影響することが分かりました。特に、Englishよりも他の言語(スウェーデン語、カタルーニャ語など)の方が、より高い相関を示す場合があることが明らかになりました。
これらの知見は、多言語LLMsの開発において、Englishを中心とするのではなく、他の言語を中心とすることで、より効率的な基盤を提供できる可能性を示唆しています。
統計
Llama2-7Bモデルでは、訓練データに含まれていた言語の翻訳BLEU scoreは全て10以上であった。
訓練データに含まれていない言語の中には、BLEUスコアが10未満の言語が多数あった。
Llama2-13Bモデルでは、訓練データに含まれていない言語のBLEUスコアが平均2.53(標準偏差1.64)ほど向上した。
指示チューニング(chat)モデルでは、一部の言語(イボ語、ジャワ語)で3点以上のBLEU向上が見られたが、一部の言語(タガログ語)では2.64点の低下も見られた。
ショット数を増やすことでも、平均0.47点(非chat)、0.08点(chat)のBLEU向上が見られた。