本論文は、効率的な視覚音声認識(VSR)アプローチであるLiteVSRの改良版を提案している。主な貢献は以下の通り:
これらの改良により、LiteVSR2は公開データセットのみを使用しながら、CTC系の視覚音声認識モデルとして最高水準の性能を達成した。特に、わずか59時間の有labeled データを使用した場合でも、LRS2およびLRS3ベンチマークで最良の結果を示した。さらに、無labeled データのみを使用した場合でも、大幅な性能向上を実現した。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Hendrik Laux... : arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07210.pdfDaha Derin Sorular