本研究では、ストリーミング音声認識のためのモデルを提案している。主な特徴は以下の通りである:
Mambaエンコーダの活用: Mambaエンコーダは線形時間複雑度を持ち、Transformerに匹敵する性能を示す。ストリーミング音声認識に適したエンコーダであることを実証する。
先読み機構の導入: Mambaエンコーダに対して、簡単な畳み込み層を用いた先読み機構を導入する。これにより、認識精度とレイテンシのトレードオフを適切に調整できる。
単一モーダル集約(UMA)の活用: UMAフレームワークを用いて、特徴フレームの明示的な集約と、トークン境界の検出を行う。これにより、ストリーミング音声認識の核心的な課題であるトークン出力のタイミング検出を自然に解決できる。
早期終了(ET)手法の提案: UMAの特徴を活用し、トークンピークでの早期出力を試みることで、さらなるレイテンシ削減を実現する。
実験の結果、提案手法は、AISHELL-1およびAISHELL-2の2つの中国語音声認識データセットにおいて、高精度かつ低遅延のストリーミング音声認識を達成することができた。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések