다양한 언어에서 사전 학습된 모델은 언어 특화 및 언어 독립적 표현을 모두 활용하여 타 언어로의 지식 전이를 달성한다.
다국어 대규모 언어 모델은 다국어 자연어 처리 작업에서 탁월한 성과를 거두고 있지만, 이에 대한 종합적인 조사와 분석이 부족한 실정이다. 이 논문에서는 다국어 정렬을 기준으로 다국어 대규모 언어 모델의 최신 동향과 발전 방향을 제시한다.
다국어 하류 작업을 위해 대규모 언어 모델을 미세 조정하려면 다양한 언어가 필요하다. 언어의 수, 언어 노출 및 유사성은 미세 조정을 위한 언어 선택에 중요한 측면이다.
현재 다국어 언어 모델은 언어 간 지식 정렬 수준이 만족스럽지 않으며, 다국어 사전 학습과 지시 미세 조정으로도 이를 크게 개선하기 어렵다.
다국어 디코더 기반 사전 학습 언어 모델에는 각 언어에 고유한 뉴런이 존재하며, 이러한 뉴런을 제어하면 텍스트 생성 시 목표 언어 발생 확률을 크게 변화시킬 수 있다.
다국어 학습 접근법을 통해 작은 언어인 핀란드어에 대한 기존 모델들을 크게 능가하는 성능을 달성하고, 영어와 프로그래밍 언어에서도 경쟁력 있는 성능을 보여줌.
다국어 LLM은 문화적 공통 지식을 충분히 포함하지 못하여 다양한 문화권의 속담과 격언을 이해하는 데 어려움을 겪는다.
AURORA-M은 기존 다국어 언어 모델의 한계를 극복하고자 개발된 15B 규모의 오픈소스 다국어 언어 모델로, 바이든-해리스 행정부의 인공지능 안전 및 신뢰성 행정명령에 부합하도록 설계되었다.
다국어 언어 모델의 제로샷 교차 언어 전이 능력은 잘 알려져 있지만, 긍정적 또는 부정적 전이 현상과 언어 선택의 영향은 아직 완전히 이해되지 않고 있다. 우리는 어댑터 유닛을 사용하여 작업과 언어를 분리함으로써 특정 전이 언어가 다른 대상 언어의 성능에 미치는 영향을 효율적으로 연구하는 방법을 제안한다.
다국어 언어 모델은 소스 언어의 정보를 활용하여 타겟 언어에 적용할 수 있는 강력한 교차 언어 전이 능력을 보여준다. 이 연구는 다양한 언어 쌍에 대해 교차 언어 전이 성능과 적대적 데이터셋에 대한 강건성을 평가한다.