本論文では、クロアチア語、セルビア語、ボスニア語、モンテネグロ語の4つの密接に関連する言語(HBS言語群)に対して、効率的なエンコーダモデルの開発方法を検討している。
まず、HBS言語群に特化して作成された専用モデル(BERTić)と、大規模多言語モデル(XLM-R)をHBS言語群のデータで追加プリトレーニングした新規モデルを比較評価した。
評価タスクは以下の3つ:
結果、追加プリトレーニングにより大規模多言語モデルの性能が大幅に向上し、専用モデルと同等以上の性能を達成できることが示された。特に、追加プリトレーニングの初期段階で大きな性能向上が見られた。
さらに、HBS言語群に加えてスロベニア語(密接に関連する言語)のデータも使って追加プリトレーニングを行った場合、HBS言語群のみの場合と比べて性能の低下は見られなかった。これにより、関連言語を組み合わせて追加プリトレーニングすることで、より効率的な言語モデル開発が可能であることが示唆された。
ただし、常識推論タスクでは、追加プリトレーニングを長期間行うと性能が低下する傾向が観察された。これは、多言語モデルの持つ深層的な言語理解能力が損なわれる可能性があるためと考えられる。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות