Core Concepts
XLAVS-Rは、100以上の言語でノイズに強い音声認識と翻訳を可能にするクロスリンガルオーディオビジュアル音声表現モデルです。
Abstract
Abstract:
音声認識と翻訳システムは騒々しい環境で性能が低下する。
XLAVS-Rは、100以上の言語でノイズに強い音声認識と翻訳を実現する。
Introduction:
最新のモデルは騒々しい環境で性能が低下する。
ビジュアル信号を組み合わせることでロバスト性向上が可能。
Related Work:
自己教師あり学習による音声表現の一般化。
XLAVS-R:
オーディオ専用プレトレーニングから始め、視覚的手法を追加して学習を進める。
Experiments:
9言語で最先端のパフォーマンスを達成。
Results:
XLAVS-Rは清潔な環境でも騒々しい環境でも優れたパフォーマンスを示す。
Stats
XLAVS-Rは、128言語で436K時間のデータを使用しています。
Quotes
"XLAVS-R achieves SOTA performance on both audio-visual speech recognition and translation tasks."
"XLAVS-R effectively leverages unlabeled audio-only multilingual speech data and audio-visual data in self-supervised learning."