核心概念
リアルミーティングアプリケーションにおけるスピーカー割り当ての改善方法を提案し、VADセグメントでのファインチューニングがSERを最大28%相対的に低減することを示す。
摘要
過去の研究はモデル構造に焦点を当て、シミュレートされた会議データで評価されていた。
リアルライフシナリオ向けにVAD、SD、SA-ASRパイプラインを提案。
VAD出力セグメントを使用してSA-ASRモデルをファインチューニングすることでSERが最大28%相対的に低減。
SD出力から抽出したスピーカー埋め込みテンプレートはSERを最大20%相対的に低減。
異なるセグメント長からのスピーカー埋め込みテンプレート抽出戦略も探索された。
統計資料
EN2002d 19.48 2.245 EN2002d_3
EN2002d 21.725 1.5 EN2002d_0
EN2002d 23.225 5.435 EN2002d_1
EN2002d 29.17 7.87 EN2002d_1
引述
"VAD output segments to fine-tune the SA-ASR model, resulting in a relative reduction of Speaker Error Rate (SER) up to 28%".
"Extracting speaker embedding templates from SD output rather than annotated speaker segments results in a relative SER reduction up to 20%".