Llama2の多言語機械翻訳性能を評価し、中心言語としてEnglish以外の言語の可能性を探る
多言語機械翻訳システムは、低リソース言語のデータを悪用することで、高リソース言語の翻訳にも悪影響を及ぼすことができる。
モノリンガルデータを活用した多言語機械翻訳では、ドメインの違いや言語モデルの規模が重要な役割を果たす。バックトランスレーションは多くの設定で有効だが、ドメインの不一致に脆弱である。一方、言語モデルの規模が大きくなるにつれ、言語モデルの事前学習(DAE)の有効性も高まり、バックトランスレーションと同等の性能を発揮するようになる。
サブワード分割手法の選択が、多言語モデリングにおける相乗効果と干渉の最小化、および言語間微調整時の知識転移に大きな影響を及ぼすことを示す。特に、言語間の正書法の違いが、言語的関連性以上に言語間転移に大きな影響を及ぼすことを明らかにする。