Core Concepts
기존 다국어 문장 임베딩 모델보다 우수한 성능을 보이는 대규모 다국어 문장 임베딩 모델 m-ST5를 제안한다.
Abstract
이 논문에서는 다국어 문장 임베딩 모델 Multilingual Sentence T5 (m-ST5)를 제안한다. m-ST5는 기존의 Sentence T5 모델을 다국어로 확장한 것으로, 다국어 자연어 추론(NLI) 데이터를 활용하여 fine-tuning하였다. 실험 결과, m-ST5는 기존 다국어 문장 임베딩 모델인 mSimCSE보다 우수한 성능을 보였다. 특히 모델 크기가 증가할수록 성능이 향상되는 경향을 보였으며, 영어와 유사성이 낮은 언어에서 더 큰 성능 향상을 확인할 수 있었다. 또한 m-ST5는 영어 NLI 데이터만으로도 특정 단일어 모델과 유사한 수준의 성능을 달성할 수 있었다.
Stats
다국어 문장 임베딩 모델 m-ST5는 5.7B 개의 매개변수를 가지고 있다.
m-ST5의 학습에는 6.3T 토큰의 다국어 데이터와 200만 개의 NLI 데이터가 사용되었다.
Quotes
"기존 다국어 문장 임베딩 모델보다 우수한 성능을 보이는 대규모 다국어 문장 임베딩 모델 m-ST5를 제안한다."
"모델 크기가 증가할수록 성능이 향상되는 경향을 보였으며, 영어와 유사성이 낮은 언어에서 더 큰 성능 향상을 확인할 수 있었다."
"m-ST5는 영어 NLI 데이터만으로도 특정 단일어 모델과 유사한 수준의 성능을 달성할 수 있었다."