핵심 개념
제한적인 다국어 음성-시각 사전 학습 데이터의 이점을 극대화하기 위해 다국어 음성 전용 사전 학습 모델을 기반으로 하고 기존 사전 학습 방식을 단순화한 XLAVS-R 모델을 제안합니다. 이를 통해 100개 이상의 언어에서 잡음 환경에서도 강인한 음성 인식 및 음성-문자 번역 성능을 달성합니다.
초록
이 논문은 XLAVS-R이라는 다국어 음성-시각 표현 학습 모델을 소개합니다. 기존 모델들은 영어 전용이거나 제한적인 음성-시각 데이터만을 사용했지만, XLAVS-R은 다음과 같은 특징을 가집니다:
- 풍부한 다국어 음성 전용 데이터를 활용하여 효율적으로 데이터 규모와 언어 범위를 확장합니다.
- 단순화된 사전 학습 프로토콜과 개선된 모델 아키텍처를 사용하여 성능을 향상시킵니다.
- 2B 파라미터 규모의 모델을 학습하여 다국어 환경에서 우수한 성능을 달성합니다.
실험 결과, XLAVS-R은 MuAViC 벤치마크에서 잡음 환경의 음성 인식과 음성-문자 번역 태스크에서 기존 최고 성능 대비 최대 18.5% WER, 4.7 BLEU 향상을 보였습니다. 또한 음성 전용 파인튜닝으로도 강력한 음성-시각 제로샷 성능을 달성하여, 레이블된 음성-시각 데이터가 없는 경우에도 우수한 성능을 보였습니다.
통계
잡음 환경에서 XLAVS-R 2B 모델의 평균 WER은 50.8%로, 기존 최고 모델 대비 18.5% 향상되었습니다.
잡음 환경에서 XLAVS-R 2B 모델의 평균 BLEU 점수는 18.7로, 기존 최고 모델 대비 4.7점 향상되었습니다.
인용구
"XLAVS-R은 제한적인 다국어 음성-시각 사전 학습 데이터의 이점을 극대화하기 위해 다국어 음성 전용 사전 학습 모델을 기반으로 하고 기존 사전 학습 방식을 단순화한 모델입니다."
"XLAVS-R은 100개 이상의 언어에서 잡음 환경에서도 강인한 음성 인식 및 음성-문자 번역 성능을 달성합니다."