合成スピーカーを用いたカリキュラム学習によって、ターゲットスピーカー抽出の性能を大幅に向上させることができる。
登録スピーチの拡張は、事前学習済みスピーカーエンコーダーと共同最適化スピーカーエンコーダーの両方において、ターゲットスピーカー抽出の性能を一貫して向上させる。
離散トークンと言語モデルを活用したターゲットスピーカー抽出ネットワークTSELMを提案する。TSELMは、WavLMの複数の隠れ層からのトークン化、クロスアテンションとLanguage Modelによる分離、そしてスケーラブルなHiFi-GANによる音声再構築を行う。実験の結果、音声品質に優れ、音声明瞭性においても同等の性能を示すことが分かった。