Core Concepts
다국어 언어 모델의 제로샷 교차 언어 전이 능력은 잘 알려져 있지만, 긍정적 또는 부정적 전이 현상과 언어 선택의 영향은 아직 완전히 이해되지 않고 있다. 우리는 어댑터 유닛을 사용하여 작업과 언어를 분리함으로써 특정 전이 언어가 다른 대상 언어의 성능에 미치는 영향을 효율적으로 연구하는 방법을 제안한다.
Abstract
이 연구는 다국어 언어 모델의 제로샷 교차 언어 전이 능력을 효율적으로 연구하는 방법을 제안한다. 주요 내용은 다음과 같다:
작업과 언어 효과를 분리하기 위해 어댑터 유닛을 사용한다. 이를 통해 특정 전이 언어가 대상 언어 성능에 미치는 영향을 효율적으로 평가할 수 있다.
38개의 전이 언어(11개의 사전 학습에 포함되지 않은 언어 포함)를 사용하여 광범위한 실험을 수행했다. 결과, 어떤 언어도 모든 대상 언어에 긍정적인 영향을 주지 않는다는 것을 발견했다.
사전 학습에 포함되지 않은 언어들이 전이 언어로 사용될 때 높은 분산을 보이는데, 이는 일부 언어에는 매우 유익하지만 다른 언어에는 해롭기 때문이다.
대상 언어 측면에서는 사전 학습에 포함되지 않은 언어들이 대부분의 전이 언어로부터 긍정적인 영향을 받는 것으로 나타났다.
지속적인 사전 학습(1000 step)은 대부분의 경우 부정적인 전이를 초래하지만, 일부 사전 학습에 포함되지 않은 언어들은 이로부터 이득을 얻는 것으로 나타났다.
Stats
전이 언어 중 약 90%가 상위 20개 언어에 포함되며, 이들은 높은 분산을 보인다.
사전 학습에 포함되지 않은 언어들 중 약 1/3은 어떤 전이 언어로부터도 긍정적인 영향을 받지 않는다.
사전 학습에 포함되지 않은 언어들은 대부분의 전이 언어로부터 긍정적인 영향을 받는다.
Quotes
"다국어 언어 모델의 제로샷 교차 언어 전이 능력은 잘 알려져 있지만, 긍정적 또는 부정적 전이 현상과 언어 선택의 영향은 아직 완전히 이해되지 않고 있다."
"우리는 어댑터 유닛을 사용하여 작업과 언어를 분리함으로써 특정 전이 언어가 다른 대상 언어의 성능에 미치는 영향을 효율적으로 연구하는 방법을 제안한다."