本研究は、マルチスピーカー音声認識(MTASR)におけるスピーカー分離の課題に取り組んでいる。
まず、CTCベースのMTASRモデルを分析したところ、CTCの訓練目的関数がエンコーダに異なるスピーカーの音声を時間領域で分離して表現させることを発見した。この発見に基づき、スピーカー分離を明示的にモデル化したSpeaker-Aware CTCを提案した。
Speaker-Aware CTCは、Bayes risk CTCフレームワークを用いて、スピーカーごとのトークンが特定の時間フレームに表現されるよう制約を加えるものである。この訓練目的関数を、Serialized Output Training(SOT)ベースのMTASRモデルに統合したところ、従来のSOT-CTCモデルと比べて大幅な性能向上が得られた。特に、低重複条件では15%のWER削減が確認された。
本研究は、CTCベースの手法をMTASRタスクに適用する初の試みであり、スピーカー分離の新たな視点を提示している。今後の展開として、ストリーミング音声認識への適用や、非自己回帰型の音声認識への応用などが考えられる。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Jiawen Kang,... : arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12388.pdfDaha Derin Sorular