ターゲットスピーカー抽出

Увійти

ідея - ターゲットスピーカー抽出

合成スピーカーを用いたターゲットスピーカー抽出のためのカリキュラム学習の改善

合成スピーカーを用いたカリキュラム学習によって、ターゲットスピーカー抽出の性能を大幅に向上させることができる。

ターゲットスピーカー抽出のための登録スピーチ拡張の有効性について

登録スピーチの拡張は、事前学習済みスピーカーエンコーダーと共同最適化スピーカーエンコーダーの両方において、ターゲットスピーカー抽出の性能を一貫して向上させる。

離散トークンと言語モデルを使用したターゲットスピーカー抽出

離散トークンと言語モデルを活用したターゲットスピーカー抽出ネットワークTSELMを提案する。TSELMは、WavLMの複数の隠れ層からのトークン化、クロスアテンションとLanguage Modelによる分離、そしてスケーラブルなHiFi-GANによる音声再構築を行う。実験の結果、音声品質に優れ、音声明瞭性においても同等の性能を示すことが分かった。

Про нас

Продукти

Ресурси