Concepts de base
대규모 언어 모델의 교차 언어 전이 능력을 향상하기 위해서는 사전 훈련 전에 다국어 정렬을 구축하고, 훈련 과정 전반에 걸쳐 이를 유지하는 것이 중요하다.
Résumé
PreAlign: 다국어 정렬의 조기 구축을 통한 교차 언어 전이 향상
본 연구 논문에서는 대규모 언어 모델(LLM)의 교차 언어 전이 능력을 향상시키기 위한 새로운 프레임워크인 PreAlign을 제안한다. PreAlign은 기존 방법들과 달리 대규모 언어 사전 훈련 전에 다국어 정렬 정보를 주입하고, 훈련 과정 전반에 걸쳐 이를 유지하는 방식으로 작동한다.
PreAlign은 크게 두 가지 단계로 구성된다.
1. 사전 훈련 전 다국어 정렬 주입
다국어 정렬 테이블 수집: PreAlign은 MUSE와 같은 기존 다국어 사전을 활용하거나 기계 번역 모델을 통해 다국어 정렬 테이블을 수집한다. 본 논문에서는 GPT-4를 사용하여 다양한 번역 결과를 수집하는 방법을 택했다.
대조 학습을 통한 정렬 주입: 수집된 다국어 정렬 테이블을 기반으로 PreAlign은 대조 학습 목표를 사용하여 정렬된 단어들의 표현이 유사하도록 모델의 매개변수를 초기화한다. 이는 각 단어의 모든 레이어 표현을 추출하고, 대조 학습을 통해 정렬된 단어 쌍의 유사도를 최대화하는 방식으로 이루어진다.
2. 입력 전용 코드 전환을 통한 다국어 정렬 유지
PreAlign은 사전 훈련 전에 주입된 다국어 정렬 정보가 훈련 과정에서 잊혀지는 것을 방지하기 위해 코드 전환 기술을 활용한다.
특히, 기존 코드 전환 방식과 달리 입력 전용 코드 전환 전략을 제안하여 출력 결과에서 발생할 수 있는 다국어 스크립트 혼합 문제를 완화한다.
입력 전용 코드 전환은 입력 시퀀스의 단어만 대체하고, 대체된 단어에 대한 예측 목표를 생략하여 다른 언어의 스크립트가 생성 결과에 포함되는 것을 방지한다.
본 논문에서는 영어-영어 클론 설정 및 실제 다국어 설정(중국어, 러시아어, 독일어, 아랍어)에서 다양한 규모의 모델을 사용하여 PreAlign의 효과를 검증했다.
주요 결과
PreAlign은 기존의 공동 훈련 방식보다 모든 평가 지표에서 뛰어난 성능을 보였다.
특히, PreAlign은 1%의 데이터만 사용하고도 전체 데이터를 사용한 모델과 유사한 언어 모델링 성능을 달성했으며, 교차 언어 지식 적용(CLKA) 능력에서 큰 차이를 보였다.
또한, PreAlign은 사전 훈련 중 및 사후에 정렬을 수행하는 방법보다 효과적인 것으로 나타났다.
추가 분석
지식 학습 능력은 언어 능력과 상관관계가 있다. PreAlign은 영어에서 영어-클론으로의 언어 능력 전이를 향상시켜 지식 학습 능력을 향상시켰다.
PreAlign은 CLKA를 가능하게 한다. PreAlign은 서로 다른 언어로 기술된 지식을 학습하고 적용하는 능력, 즉 CLKA 능력을 크게 향상시켰다.
다국어 정렬 정보는 사전 훈련 전반에 걸쳐 유지된다. PreAlign은 사전 훈련 과정 동안 정렬된 단어 임베딩의 유사도를 높게 유지하여 초기에 주입된 다국어 정렬 정보가 유지됨을 확인했다.
보지 못한 단어 쌍에도 일반화 가능하다. PreAlign은 고빈도 단어의 정렬 정보를 사용하여 학습되었음에도 불구하고, 보지 못한 단어에 대해서도 일반화된 성능 향상을 보였다.