核心概念
言語の不均衡は、言語モデルの言語間の一般化を促進する。
要約
本研究では、言語の不均衡が言語モデルの言語間の一般化に及ぼす影響を調査した。
まず、完全に等価な複製言語を使った実験では以下の知見を得た:
- 言語の割合が均等な場合、言語モデルは言語間の一般化を示さない。
- 言語の割合に不均衡がある場合、少数言語の性能が向上し、言語間の表現の整合性が高まる。
- この効果は、モデルのサイズを大きくしたり、学習時間を長くすると強まる。
- 不均衡な言語割合でのスケジューリングにより、全言語の性能を向上させることができる。
次に、英語とフランス語を使った実験では以下の知見を得た:
- 言語の不均衡は低資源言語の性能を向上させるが、その効果は完全に等価な言語ほど顕著ではない。
- 学習時間を長くすると、不均衡な設定での低資源言語の性能向上効果が減少する。
- しかし、モデルサイズを大きくすると、言語間の一般化が改善される。
- 言語割合のスケジューリングは、一方の言語の性能を向上させつつ、他方の言語の性能を犠牲にすることはできるが、両言語の性能を同時に向上させることはできない。
統計
言語の不均衡が大きい場合、少数言語の性能が単一言語モデルの性能を上回る。
例えば、90%の英語データと10%のフランス語データを使った場合、フランス語の性能は単一言語モデルの3.56倍に達した。
引用
"言語の不均衡は、言語モデルの言語間の一般化を促進する。"
"言語の不均衡の効果は、モデルのサイズを大きくしたり、学習時間を長くすると強まる。"