本研究では、可変長のスピーチ信号の特性を捉えるためのEcho Multi-Scale Attention (Echo-MSA)モジュールを提案している。従来のTransformerベースの自動音声認識モデルは固定長の注意機構を使用するため、スピーチ信号の長さや複雑さの違いに対応できないという課題があった。
Echo-MSAは、深さ分離畳み込み層を使ってスピーチ信号の全体的な特徴を捉え、可変長の注意機構を適用することで、フレーム、音素、単語、文脈レベルの特徴を抽出できる。また、従来のMulti-Scale Attention (MSA)と並列に動作するDual Focus Gateを導入し、両者の出力を適応的に組み合わせることで、モデルの安定性と精度を向上させている。
実験では、LibriSpeechデータセットを用いて提案手法の有効性を検証した。100時間の学習データを使った場合、提案モデルはベースラインと比べて、クリーンデータでは7.7%、その他のデータでは5.7%のWord Error Rate Reduction (WERR)を達成した。さらに、少量の学習データ(10分、1時間、100時間)を使った実験でも、提案モデルがベースラインを上回る性能を示した。これらの結果から、提案手法が可変長スピーチ信号の特性を効果的に捉えられることが確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sizhou Chen,... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.07765.pdfDeeper Inquiries