核心概念
XLAVS-Rは、100以上の言語でノイズに強い音声認識と翻訳を可能にするクロスリンガルオーディオビジュアル音声表現モデルです。
統計
XLAVS-Rは、128言語で436K時間のデータを使用しています。
引用
"XLAVS-R achieves SOTA performance on both audio-visual speech recognition and translation tasks."
"XLAVS-R effectively leverages unlabeled audio-only multilingual speech data and audio-visual data in self-supervised learning."