最近、自己注意ベースのエンコーダーデコーダーやCTC、Transducerなどのエンドツーエンド自動音声認識(ASR)システムが人気を博しています。しかし、これらのSOTAモデルはリアルタイムストリーミングシナリオで使用する際に性能が低下することがあります。本研究では、過去コンテキストの制限に対処するために提案された動的コンテキストConformer(DCTX-Conformer)が紹介されています。このモデルは従来よりも優れた性能を示し、過去コンテキストを効果的に捉えることができます。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Goeric Huybr... في arxiv.org 03-05-2024
https://arxiv.org/pdf/2306.08175.pdfاستفسارات أعمق