Core Concepts
大規模言語モデルを用いた交差言語分類タスクにおいて、中間学習と交差言語検証の2つの異なる交差言語転移戦略を比較し、それぞれの戦略における破滅的忘却の程度を評価した。
Abstract
本研究は、大規模言語モデルを用いた交差言語分類タスクにおいて、2つの異なる交差言語転移戦略を比較しています。
中間学習(IT)戦略:
まず、ソース言語でモデルを学習し、その後にターゲット言語でファインチューニングを行う。
ITは、ターゲット言語の性能を向上させるが、ソース言語の性能を低下させる可能性がある。
交差言語検証(CLV)戦略:
ソース言語のデータでモデルを学習し、ターゲット言語のデータを検証に使用する。
CLVは、ソース言語の性能を維持しつつ、ターゲット言語の性能も向上させることができる。
実験の結果、以下のことが明らかになりました:
ITは、ターゲット言語の性能を向上させるが、ソース言語の性能を大幅に低下させる可能性がある。
CLVは、ソース言語の性能を維持しつつ、ターゲット言語の性能も向上させることができる。
複数の交差言語転移を行う場合、CLV戦略はITよりも過去の知識を保持する傾向にある。
アダプターファインチューニングは、パラメータ効率が高く、計算コストも低いが、完全ファインチューニングほど高い性能は得られない。
Stats
交差言語転移後のソース言語(英語)の性能低下は、ITでは平均3.61%、CLVでは平均0.06%であった。
複数の交差言語転移後、ITでのソース言語(英語)の平均保持率は94.56%、CLVでは97.89%であった。
Quotes
"中間学習(IT)戦略は、ターゲット言語の性能を向上させるが、ソース言語の性能を大幅に低下させる可能性がある。"
"交差言語検証(CLV)戦略は、ソース言語の性能を維持しつつ、ターゲット言語の性能も向上させることができる。"
"複数の交差言語転移を行う場合、CLV戦略はITよりも過去の知識を保持する傾向にある。"