이 논문은 XLAVS-R이라는 다국어 음성-시각 표현 학습 모델을 소개한다. XLAVS-R은 다음과 같은 특징을 가진다:
음성 데이터가 더 풍부한 점을 활용하여 먼저 음성 전용 사전 학습을 수행한 후, 제한된 음성-시각 데이터를 활용하여 지속적인 학습을 진행한다. 이를 통해 효율적으로 다국어 음성-시각 표현을 학습할 수 있다.
학습 과정을 단순화하여 학습 효율을 높였다. 기존 접근법과 달리 단일 라운드의 사전 학습만으로도 우수한 성능을 달성할 수 있다.
학습 가능한 오디오 특징 추출기를 사용하여 다국어 음성 정보를 효과적으로 캡처할 수 있다.
이러한 접근법을 통해 XLAVS-R은 MuAViC 벤치마크에서 기존 최신 모델 대비 최대 18.5% WER, 4.7 BLEU 개선을 달성했다. 또한 음성 전용 미세 조정만으로도 우수한 음성-시각 성능을 보여, 레이블된 음성-시각 데이터가 없는 경우에도 강건한 성능을 발휘할 수 있음을 확인했다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы