제한적인 다국어 음성-시각 사전 학습 데이터의 이점을 극대화하기 위해 다국어 음성 전용 사전 학습 모델을 기반으로 하고 기존 사전 학습 방식을 단순화한 XLAVS-R 모델을 제안합니다. 이를 통해 100개 이상의 언어에서 잡음 환경에서도 강인한 음성 인식 및 음성-문자 번역 성능을 달성합니다.
제한된 다국어 음성-시각 사전 학습 데이터를 효율적으로 활용하여 100개 이상의 언어에서 잡음에 강건한 음성 인식 및 음성-문자 번역 성능을 달성하는 모델을 제안한다.