מושגי ליבה
XLAVS-Rは、100以上の言語でノイズに強い音声認識と翻訳を可能にするクロスリンガルオーディオビジュアル音声表現モデルです。
סטטיסטיקה
XLAVS-Rは、128言語で436K時間のデータを使用しています。
ציטוטים
"XLAVS-R achieves SOTA performance on both audio-visual speech recognition and translation tasks."
"XLAVS-R effectively leverages unlabeled audio-only multilingual speech data and audio-visual data in self-supervised learning."