本論文は、会議録作成のための単一チャンネル音声処理パイプラインを提案している。このパイプラインは、連続音声分離(CSS)、ダイアライゼーション、そして音声認識の3つのモジュールから構成される。
まず、TF-GridNetアーキテクチャを用いたCSSシステムを適用し、状態の最良の認識性能(ORC WER)を達成する。次に、d-vectorベースのダイアライゼーションモジュールを使用して、強化された信号からスピーカーエンベディングを抽出し、CSS出力を正しいスピーカーに割り当てる。ここで、ASRモジュールの文章・単語レベルの境界情報を活用したダイアライゼーションを提案し、最先端のcpWERを実現する。
実験では、Libri-CSSデータセットを使用して評価を行った。TF-GridNetがCSSに適していることを確認し、ORC WERの面で最先端の性能を達成した。さらに、提案の文法情報を活用したダイアライゼーションにより、cpWERでも最先端の結果を得ることができた。これらの強力な結果は、分離後にダイアライゼーションを行うCSSパイプラインの可能性を示唆している。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Thilo von Ne... um arxiv.org 05-07-2024
https://arxiv.org/pdf/2309.16482.pdfTiefere Fragen