本論文は、会議録作成のための単一チャンネル音声処理パイプラインを提案している。このパイプラインは、連続音声分離(CSS)、ダイアライゼーション、そして音声認識の3つのモジュールから構成される。
まず、TF-GridNetアーキテクチャを用いたCSSシステムを適用し、状態の最良の認識性能(ORC WER)を達成する。次に、d-vectorベースのダイアライゼーションモジュールを使用して、強化された信号からスピーカーエンベディングを抽出し、CSS出力を正しいスピーカーに割り当てる。ここで、ASRモジュールの文章・単語レベルの境界情報を活用したダイアライゼーションを提案し、最先端のcpWERを実現する。
実験では、Libri-CSSデータセットを使用して評価を行った。TF-GridNetがCSSに適していることを確認し、ORC WERの面で最先端の性能を達成した。さらに、提案の文法情報を活用したダイアライゼーションにより、cpWERでも最先端の結果を得ることができた。これらの強力な結果は、分離後にダイアライゼーションを行うCSSパイプラインの可能性を示唆している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Thilo von Ne... lúc arxiv.org 05-07-2024
https://arxiv.org/pdf/2309.16482.pdfYêu cầu sâu hơn