Core Concepts
단일 대규모 다국어 모델을 통해 7,000개 이상의 언어에 대한 번역 품질을 향상시키고 디지털 격차를 해소하고자 한다.
Abstract
이 연구는 신경망 기계 번역(NMT) 기술을 확장하여 200개 언어로 확장하는 것을 목표로 한다. 현재 NMT 시스템은 다국어 능력을 활용하고 제로 샷 번역을 수행할 수 있지만, 7,000개 이상의 언어 중 대부분은 병렬 이중언어 데이터가 부족하여 번역 품질이 낮다. 이를 해결하기 위해 연구진은 Sparsely Gated Mixture of Experts 아키텍처 기반의 조건부 계산 모델을 개발하였다. 이 모델은 저자원 언어를 위해 특별히 고안된 마이닝 기술을 통해 확보한 데이터로 학습되었다. 또한 수천 개의 과제에서 과적합을 방지하기 위한 아키텍처 및 학습 개선 기법을 적용하였다. 이 모델은 FLORES-200 벤치마크, XSTS 인간 평가 지표, 모든 언어에 대한 유해성 탐지기를 통해 평가되었으며, 이전 최신 모델 대비 평균 44% 향상된 번역 품질을 달성하였다. 이를 통해 200개 언어로 확장된 NMT 모델을 개발하고 이를 비상업적으로 공개함으로써 보편적 번역 시스템 구축을 위한 기반을 마련하였다.
Stats
7,000개 이상의 언어 중 대부분은 병렬 이중언어 데이터가 부족하여 번역 품질이 낮다.
이 모델은 FLORES-200 벤치마크에서 이전 최신 모델 대비 평균 44% 향상된 번역 품질을 달성하였다.
Quotes
"단일 대규모 다국어 모델을 통해 7,000개 이상의 언어에 대한 번역 품질을 향상시키고 디지털 격차를 해소하고자 한다."
"이를 통해 200개 언어로 확장된 NMT 모델을 개발하고 이를 비상업적으로 공개함으로써 보편적 번역 시스템 구축을 위한 기반을 마련하였다."