XLAVS-R enhances noise-robust speech perception through cross-lingual audio-visual representation learning.
XLAVS-Rは、100以上の言語でノイズに強い音声認識と翻訳を可能にするクロスリンガルオーディオビジュアル音声表現モデルです。