核心概念
モノリンガルデータを活用した多言語機械翻訳では、ドメインの違いや言語モデルの規模が重要な役割を果たす。バックトランスレーションは多くの設定で有効だが、ドメインの不一致に脆弱である。一方、言語モデルの規模が大きくなるにつれ、言語モデルの事前学習(DAE)の有効性も高まり、バックトランスレーションと同等の性能を発揮するようになる。
要約
本研究は、モノリンガルデータを活用した多言語機械翻訳の有効性について、大規模な実験を通して分析している。
主な発見点は以下の通り:
ドメインの違い:
バックトランスレーション(BT)は多くの設定で有効だが、モノリンガルデータとテストデータのドメインが異なる場合、性能が大幅に低下する。
言語モデルの事前学習(DAE)は、ドメインの一致度が高い場合に有効だが、ドメインの不一致に対してはより頑健である。
言語モデルの規模:
言語モデルの規模が小さい場合、BTとDAEはともに十分な性能を発揮できない。
言語モデルの規模が大きくなるにつれ、BTとDAEの性能が大幅に向上し、特にDAEの有効性が高まる。大規模モデルでは、DAEがBTと同等の性能を発揮するようになる。
その他の知見:
DAEの中では、MASSがBARTよりも優れた性能を示す。
モノリンガルデータの多様性を高めることで、ドメインの不一致に対する頑健性が向上する。
全体として、モノリンガルデータの活用には言語モデルの規模とドメインの一致度が重要な要因となることが明らかになった。
統計
多言語機械翻訳モデルの規模を90M、370M、1.6Bパラメータと変化させた際、低リソース言語ペアでの性能向上が最も大きい。
大規模モデル(1.6B)ではDAEがBTと同等の性能を発揮し、一部の設定ではBTを上回る。
引用
"BT is more sensitive to the domain than DAE, and can underperform the parallel-only baseline when the monolingual and test data are not similar."
"As model capacity increases, all methods quickly improve compared to the parallel-only baseline, and also become more robust to domain mismatches."
"Scale affects DAE the most, which transitions from underperforming the parallel-only baseline at the 90M scale to becoming competitive with BT at 1.6B and even outperforming it in low-resource."