Conceitos essenciais
Attractors in end-to-end neural diarization may not need to encode speaker characteristic information.
Resumo
この論文では、エンドツーエンドのニューラルダイアリゼーションにおけるアトラクターの役割とスピーカー情報の符号化に焦点を当てています。EEND-EDAは、話者を表すアトラクターをデコードするエンコーダーデコーダーモジュールを使用しています。訓練中は、各アトラクターの存在確率が推定され、二値交差エントロピー関数によってアトラクター損失が定義されます。推論時には、事前定義された閾値以下になるまでアトラクターが順次抽出されます。最終的に、フレームごとの埋め込みとアトラクターとの内積が使用されてダイアリゼーション結果が生成されます。
Estatísticas
La = 1/S+1 * Σ(BCE(ls, qs))
Ld = 1/TS * min(Φ(S)) * Σ(BCE(yφs,t, ps,t))
ps,t = sigmoid(eta⊤s)