Core Concepts
深層学習の進歩を活用して、NPU-ASLP-LiAutoがCNVSRC 2023で導入したビジュアル音声認識システムに焦点を当てる。
Abstract
この論文は、NPU-ASLP-LiAuto(チーム237)が中国連続ビジュアル音声認識チャレンジ(CNVSRC)2023で導入したビジュアル音声認識(VSR)システムについて詳細に記述しています。彼らは固定トラックとオープントラックの単一話者VSRタスク、およびマルチ話者VSRタスクに参加しました。データ処理では、リップモーションエクストラクターを使用してマルチスケールのビデオデータを生成し、さまざまな拡張技術がトレーニング中に適用されました。VSRモデルは、ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダー、およびTransformerデコーダーから構成されたエンドツーエンドアーキテクチャを採用しています。実験では、彼らのシステムがマルチシステム融合後に単一話者タスクで34.76%のCER、マルチ話者タスクで41.06%のCERを達成し、すべてのトラックで1位を獲得しています。
Stats
34.76% CER for the Single-Speaker Task and 41.06% CER for the Multi-Speaker Task after multi-system fusion.
Quotes
"Neverthe-less, not all scenarios boast access to high-quality speech audio."
"We achieve CERs of 34.76% and 41.06% on the final evaluation sets of Single-Speaker VSR Task and Multi-Speaker VSR Task, respectively, ranking first place in all three tracks we participate."