本論文は、効率的な視覚音声認識(VSR)アプローチであるLiteVSRの改良版を提案している。主な貢献は以下の通り:
これらの改良により、LiteVSR2は公開データセットのみを使用しながら、CTC系の視覚音声認識モデルとして最高水準の性能を達成した。特に、わずか59時間の有labeled データを使用した場合でも、LRS2およびLRS3ベンチマークで最良の結果を示した。さらに、無labeled データのみを使用した場合でも、大幅な性能向上を実現した。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Hendrik Laux... klo arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07210.pdfSyvällisempiä Kysymyksiä