Core Concepts
言語間転移の成功は、ソース言語のスクリプト、トークナイザー、言語の類似性などの要因によって大きく影響を受ける。特に、トークナイザーの選択が最も重要な要因である。
Abstract
本研究では、アムハラ語という非ラテン系のスクリプトを持つ言語を対象に、言語間転移の性能を分析した。実験の結果、以下の知見が得られた:
ソース言語のスクリプトが転移性能に大きな影響を及ぼす。ラテン系のスクリプトを持つ言語モデルは、アムハラ語のネイティブスクリプトである「フィデル」スクリプトでは大幅に性能が低下する。一方、ロマナイズされたアムハラ語では良好な性能を示す。
言語の系統的な近さは、転移性能に大きな影響を与えない。英語ベースのモデルとアラビア語ベースのモデルの間に大きな差は見られない。
モデルサイズよりも、トークナイザーの選択が転移性能に強く影響する。BPEトークナイザーを使用したRobertaモデルが最も良好な性能を示した。
これらの結果は、言語間転移を実現する上で、ターゲット言語のスクリプトに適したトークナイザーの選択が非常に重要であることを示唆している。
Stats
未知のスクリプトを持つ言語への転移では、ラテン系スクリプトを持つモデルの性能が大幅に低下する。
言語の系統的な近さは、転移性能に大きな影響を与えない。
トークナイザーの選択が、モデルサイズよりも転移性能に強く影響する。
Quotes
"言語間転移の成功は、ソース言語のスクリプト、トークナイザー、言語の類似性などの要因によって大きく影響を受ける。"
"特に、トークナイザーの選択が最も重要な要因である。"
"BPEトークナイザーを使用したRobertaモデルが最も良好な性能を示した。"