核心概念
提案された動的コンテキストConformer(DCTX-Conformer)は、最新の統合ASRシステムに革新的なコンテキストの引き継ぎメカニズムを組み込んでおり、SOTAを上回る25.0%の単語エラー率向上を実現しています。
要約
最近、自己注意ベースのエンコーダーデコーダーやCTC、Transducerなどのエンドツーエンド自動音声認識(ASR)システムが人気を博しています。しかし、これらのSOTAモデルはリアルタイムストリーミングシナリオで使用する際に性能が低下することがあります。本研究では、過去コンテキストの制限に対処するために提案された動的コンテキストConformer(DCTX-Conformer)が紹介されています。このモデルは従来よりも優れた性能を示し、過去コンテキストを効果的に捉えることができます。
統計
提案されたDCTX-ConformerはSOTAを25.0%上回る単語エラー率向上を実現しています。
DCTX-Conformerは追加のコンテキスト埋め込みによる無視できるレイテンシ影響も持っています。