Core Concepts
大規模言語モデルの多言語性能を高めるには、どの程度の言語数の微調整が必要かを明らかにする。
Abstract
本研究では、大規模言語モデルBLOOM-7B1を用いて、1言語から52言語まで段階的に言語数を増やしながら微調整を行い、その影響を3つの多言語ベンチマークで評価した。
結果は以下の通り:
- 言語数を増やすことで、多くの場合性能が向上するが、一部の例外や収穫逓減も見られる。
- 52言語を対象とした本研究では、最適な言語数は一定ではなく、ベンチマークやタスクによって異なる。
- 多言語微調整は、場合によって性能を向上または低下させる可能性がある。また、言語間転移能力も見られるが、これらの現象はベンチマークや言語によって異なる。
本研究は、タスク、ベンチマーク、言語、評価指標などの要因を慎重に検討する必要性を示唆している。今後は、基盤モデル、微調整手法、言語データ、評価タスクなど、より体系的な検討が重要である。
Stats
言語数を増やすことで、XCOPA、XStoryClozeの精度が全体的に向上する傾向がある。
XWinogradでは、言語数を増やしても精度が低下する。
中国語と英語の精度は、韓国語を追加したときに大きく低下する。
Quotes
"Contrary to prior research, adding more languages beyond a handful can further improve accuracy, although with some outlier cases and diminishing returns."
"Given the considered 52 studied languages, there is no consistent answer regarding the optimal number of languages for mIT. The optimal number of instruction languages depends on the language similarity and downstream evaluation."
"The impact of mIT can vary, potentially aiding or hindering multilingual performance. Additionally, the cross-lingual transfer ability of mIT exists, though both phenomena are contingent upon the benchmark and languages involved."