이 논문은 XLAVS-R이라는 다국어 음성-시각 표현 학습 모델을 소개합니다. 기존 모델들은 영어 전용이거나 제한적인 음성-시각 데이터만을 사용했지만, XLAVS-R은 다음과 같은 특징을 가집니다:
실험 결과, XLAVS-R은 MuAViC 벤치마크에서 잡음 환경의 음성 인식과 음성-문자 번역 태스크에서 기존 최고 성능 대비 최대 18.5% WER, 4.7 BLEU 향상을 보였습니다. 또한 음성 전용 파인튜닝으로도 강력한 음성-시각 제로샷 성능을 달성하여, 레이블된 음성-시각 데이터가 없는 경우에도 우수한 성능을 보였습니다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by HyoJung Han,... : arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14402.pdfDaha Derin Sorular