Core Concepts
連続音声分離と文字起こし支援ダイアライゼーションを組み合わせた会議認識パイプラインを提案し、Libri-CSSデータセットで評価した。TF-GridNetを用いた連続音声分離と、文字起こしの境界情報を活用したダイアライゼーションにより、最先端の会議認識性能を達成した。
Abstract
本論文は、会議録作成のための単一チャンネル音声処理パイプラインを提案している。このパイプラインは、連続音声分離(CSS)、ダイアライゼーション、そして音声認識の3つのモジュールから構成される。
まず、TF-GridNetアーキテクチャを用いたCSSシステムを適用し、状態の最良の認識性能(ORC WER)を達成する。次に、d-vectorベースのダイアライゼーションモジュールを使用して、強化された信号からスピーカーエンベディングを抽出し、CSS出力を正しいスピーカーに割り当てる。ここで、ASRモジュールの文章・単語レベルの境界情報を活用したダイアライゼーションを提案し、最先端のcpWERを実現する。
実験では、Libri-CSSデータセットを使用して評価を行った。TF-GridNetがCSSに適していることを確認し、ORC WERの面で最先端の性能を達成した。さらに、提案の文法情報を活用したダイアライゼーションにより、cpWERでも最先端の結果を得ることができた。これらの強力な結果は、分離後にダイアライゼーションを行うCSSパイプラインの可能性を示唆している。
Stats
単一チャンネルの会議録データにおいて、TF-GridNetを用いた連続音声分離とASR支援ダイアライゼーションにより、cpWERを20%相対的に改善し、6.2%を達成した。
提案手法のダイアリゼーションエラー率(DER)は9.4%であった。
Quotes
"連続音声分離(CSS)は、任意の話者数の多話者音声を固定数の出力チャンネル(通常は2つ)にマッピングし、出力チャンネル上に話者の重複がないようにするソース分離方式である。"
"ダイアライゼーションの性能は分離の品質に依存するため、分離を先に行い、その後にダイアライゼーションを行う方が有利である。"
"文法情報(単語・文章の境界)を活用したサブセグメンテーションにより、cpWERを大幅に改善できることを示した。"