Core Concepts
多言語ネットワークには内在的なタスク固有のモジュール性が存在し、これを活用することで多言語機械翻訳の性能を向上させることができる。
Abstract
本論文では、多言語機械翻訳モデルにおける内在的なタスク固有のモジュール性に着目し、これを活用することで多言語機械翻訳の性能向上を図る手法を提案している。
分析の結果、多言語ネットワークの中間層であるフィードフォワードネットワーク(FFN)の中で、言語固有のニューロンの活性化パターンが観察された。さらに、言語間の近接性に応じてこれらの特殊化されたニューロンの重複が見られた。この特性は、モデルの深層に行くほど顕著になる傾向にあった。
これらの知見に基づき、提案手法では、事前学習済みの多言語翻訳モデルからこれらの言語固有のニューロンを同定し、FFNの中でスパース化されたサブネットワークを構築する。そして、このサブネットワークを選択的に更新することで、タスク固有性を高めながら知識の転移も促進する。
実験の結果、提案手法は小規模(IWSLT)および大規模(EC30)の多言語翻訳タスクにおいて、強力なベースラインに対して一貫した性能向上を示した。さらに分析から、提案手法が高リソース言語の干渉を軽減し、低リソース言語の知識転移を促進することが明らかになった。
Stats
高リソース言語の翻訳性能が従来手法に比べて平均1.8 BLEU向上した。
低リソース言語の翻訳性能が従来手法に比べて平均1.2 BLEU向上した。
Quotes
"多言語ネットワークには内在的なタスク固有のモジュール性が存在する"
"言語固有のニューロンの活性化パターンと言語間の近接性の関係が観察された"
"提案手法は高リソース言語の干渉を軽減し、低リソース言語の知識転移を促進する"