核心概念
CTC強制アラインメントアルゴリズムの結果を使用して各フレームのラベルを決定し、エンコーダ出力とデコーダ出力を対応するタイミングで組み合わせることで、メモリ使用量を大幅に削減したトランスデューサモデル。
摘要
本論文では、軽量トランスデューサモデルを提案している。従来のトランスデューサモデルは大きな確率行列を生成するため、メモリ使用量が非常に大きくなるという問題がある。
提案手法では、CTC強制アラインメントアルゴリズムの結果を使用して各フレームのラベルを決定する。これにより、エンコーダ出力とデコーダ出力を対応するタイミングで組み合わせればよく、メモリ使用量を大幅に削減できる。
ただし、CTC強制アラインメントの結果を直接使用すると、ブランクが多すぎるためにクラス不均衡の問題が発生し、性能が悪化する。そこで以下の改善を行った:
- ブランクとノンブランクの確率を分離し、ブランククラシファイアの勾配をメインネットワークに伝播させないようにする。
- ブランククラシファイアの入力に、最後に出力したラベルに対応するフレームの情報を追加する。これにより、ブランクの予測精度が向上する。
これらの改善により、従来のトランスデューサと同等の精度を達成しつつ、大幅な高速化と低メモリ化を実現した。
統計資料
CTC強制アラインメントアルゴリズムの実装は非常に複雑であり、バッチ処理に対応させるのが難しい。そのため、独自に高速なバッチ版のアルゴリズムを実装した。
提案手法のトレーニング時間は、LASと同程度であり、従来のトランスデューサと比べて大幅に短縮された。
提案手法は、LASと同等の精度を達成しつつ、LASよりも頑健性が高い。特に長音声に対する性能が優れている。