本論文では、ハイブリッド自己回帰トランスデューサ(HAT)ベースのASRシステムの性能向上に取り組んでいる。
まず、HATの訓練にCTCの目的関数を組み合わせることで、統計的に有意な性能向上が得られることを示している。CTCの目的関数には、単一の分布を持つ従来のCTC、HATと同様に空白と非空白の分布を分離したFCTC、そして提案手法の内部音響モデル(IAM)を使用している。IAMはエンコーダとジョイントネットワークから構成され、HATと完全に共有されて共同で訓練される。この共同訓練により、HATの訓練効率が向上するだけでなく、IAMとHATが空白を同期的に出力することで、より効果的なブランクしきい値処理が可能となる。
さらに、提案手法では、HATのブランクしきい値処理とIAMのブランクしきい値処理を組み合わせた二重ブランクしきい値処理を導入している。これにより、42-75%の高速化が達成できるが、性能劣化を最小限に抑えるため、適切な復号アルゴリズムも検討している。
実験の結果、提案手法はTED-LIUM release-2とLibriSpeechデータセットにおいて、統計的に有意な性能向上と大幅な高速化を実現できることが示された。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Takafumi Mor... : arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20313.pdfDaha Derin Sorular