提案されたUMAは、非自己回帰型自動音声認識において、テキストトークンに属する特徴フレームをセグメント化し統合することで、テキストトークンのためのより良い特徴表現を学習し、シーケンス長を短縮して認識エラーと計算複雑性を低減します。
Whisperモデルによる音声ベースのコンテキスト学習(SICL)が可能であり、効果的であることを示唆する。
提案された動的コンテキストConformer(DCTX-Conformer)は、最新の統合ASRシステムに革新的なコンテキストの引き継ぎメカニズムを組み込んでおり、SOTAを上回る25.0%の単語エラー率向上を実現しています。