本研究は、多言語機械翻訳におけるサブワード分割手法の役割を体系的に分析している。
多言語モデリング実験では、サブワード正則化手法のULMが相乗効果を最大化し、干渉を最小限に抑えることを示した。一方、クロス言語微調整実験では、決定論的なBPEサブワードが最も優れた言語間転移を実現することが分かった。
言語的関連性以外に、正書法の違いも言語間転移に大きな影響を及ぼすことが明らかになった。特に、シスワティ語とセツワナ語の場合、両言語が言語的に関連しているにもかかわらず、正書法の違いが言語間転移を阻害していることが示された。
これらの結果は、サブワード分割手法の選択が多言語モデリングの利点を最大化するために重要であることを示唆している。また、正書法の違いが言語間転移に及ぼす影響についても、これまで十分に研究されていない重要な要因であることが明らかになった。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Francois Mey... о arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20157.pdfГлибші Запити