この論文では、エンドツーエンドのニューラルダイアリゼーションにおけるアトラクターの役割とスピーカー情報の符号化に焦点を当てています。EEND-EDAは、話者を表すアトラクターをデコードするエンコーダーデコーダーモジュールを使用しています。訓練中は、各アトラクターの存在確率が推定され、二値交差エントロピー関数によってアトラクター損失が定義されます。推論時には、事前定義された閾値以下になるまでアトラクターが順次抽出されます。最終的に、フレームごとの埋め込みとアトラクターとの内積が使用されてダイアリゼーション結果が生成されます。
To Another Language
from source content
arxiv.org
Deeper Inquiries