核心概念
マルチブランク RNN-T モデルを提案し、従来の RNN-T モデルに比べて高速な推論と高精度な音声認識を実現する。
要約
本論文では、従来の RNN-T モデルに改良を加えた「マルチブランク RNN-T」を提案している。標準的な RNN-T モデルでは、ブランク記号の出力によって入力系列が1フレーム進むが、本手法では2フレーム以上進むブランク記号を追加することで、推論速度の大幅な向上を実現している。
具体的には以下の点が主な内容となっている:
標準的な RNN-T モデルに加え、2フレーム以上進むブランク記号(ビッグブランク)を導入したマルチブランク RNN-T モデルを提案
ビッグブランクの出力を優先するための損失関数の修正手法を提案
LibriSpeech、Multilingual LibriSpeechデータセットを用いた実験により、従来手法に比べて90%以上の推論速度向上と精度向上を実現
提案手法は、エッジデバイスなどでの高速な音声認識に有効であり、NeMoツールキットにて公開予定である。
統計
提案手法のLibriSpeechテストセットでの推論時間は、標準RNN-Tの126秒に対し92.9%高速の126秒
Multilingual LibriSpeechテストセットでは、標準RNN-Tの544秒に対し139.6%高速の227秒
引用
"マルチブランクRNN-Tモデルは、従来のRNN-Tモデルに比べて、推論速度を大幅に向上させることができる。"
"提案手法は、エッジデバイスなどでの高速な音声認識に有効である。"