Core Concepts
OFA는 외부 잘 정렬된 다국어 정적 단어 벡터를 활용하여 새로운 하위 단어 임베딩을 현명하게 초기화하고, 행렬 분해를 통해 임베딩 차원을 줄여 모델 효율성을 높인다.
Abstract
이 논문은 대규모 다국어 지속 사전 학습을 위한 새로운 프레임워크 OFA를 제안한다. OFA는 다음과 같은 핵심 내용을 담고 있다:
기존 사전 학습된 언어 모델(PLM)을 활용하여 새로운 언어로 확장하는 방법을 제안한다. 이때 새로운 하위 단어 임베딩을 무작위로 초기화하는 대신, 외부 잘 정렬된 다국어 정적 단어 벡터를 활용하여 현명하게 초기화한다.
행렬 분해를 통해 임베딩 차원을 줄여 모델 효율성을 높인다. 이를 통해 학습 속도가 빨라지고 탄소 배출량이 감소한다.
다양한 다운스트림 작업에서 OFA 기반 모델이 기존 무작위 초기화 모델보다 우수한 성능을 보인다. 특히 소규모 차원의 OFA 모델이 큰 차원의 모델보다 초기 학습 단계에서 더 나은 성능을 달성한다.
OFA는 단일 언어 PLM(RoBERTa)과 다국어 PLM(XLM-R) 모두에 적용할 수 있으며, 두 경우 모두 효과적인 것으로 나타났다.
Stats
단일 언어 PLM(RoBERTa) 기반 OFA 모델은 무작위 초기화 모델보다 문장 검색 과제(SR-B)에서 약 13.4%p, 문장 분류 과제(Taxi1500)에서 약 22.4%p, 개체명 인식(NER)에서 약 26.6%p, 품사 태깅(POS)에서 약 34.1%p 더 높은 성능을 보였다.
다국어 PLM(XLM-R) 기반 OFA 모델은 무작위 초기화 모델보다 문장 검색 과제(SR-B)에서 약 4.5%p, 문장 분류 과제(Taxi1500)에서 약 3.3%p, 개체명 인식(NER)에서 약 7.0%p, 품사 태깅(POS)에서 약 1.2%p 더 높은 성능을 보였다.
Quotes
"OFA는 외부 잘 정렬된 다국어 정적 단어 벡터를 활용하여 새로운 하위 단어 임베딩을 현명하게 초기화하고, 행렬 분해를 통해 임베딩 차원을 줄여 모델 효율성을 높인다."
"OFA 기반 모델은 다양한 다운스트림 작업에서 기존 무작위 초기화 모델보다 우수한 성능을 보인다. 특히 소규모 차원의 OFA 모델이 큰 차원의 모델보다 초기 학습 단계에서 더 나은 성능을 달성한다."