本論文では、軽量トランスデューサモデルを提案している。従来のトランスデューサモデルは大きな確率行列を生成するため、メモリ使用量が非常に大きくなるという問題がある。
提案手法では、CTC強制アラインメントアルゴリズムの結果を使用して各フレームのラベルを決定する。これにより、エンコーダ出力とデコーダ出力を対応するタイミングで組み合わせればよく、メモリ使用量を大幅に削減できる。
ただし、CTC強制アラインメントの結果を直接使用すると、ブランクが多すぎるためにクラス不均衡の問題が発生し、性能が悪化する。そこで以下の改善を行った:
これらの改善により、従来のトランスデューサと同等の精度を達成しつつ、大幅な高速化と低メモリ化を実現した。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Genshun Wan,... às arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.13698.pdfPerguntas Mais Profundas