Основные понятия
複数の話者が存在する雑音環境下で目的の話者の声を抽出することは困難な課題である。個人化された音声強化は、話者の声に関する事前情報を活用することでこの課題に取り組む。本研究では、軽量な双方向音声強化モデルであるディープフィルターネット2を個人化する新しい手法を提案し、その有効性を示す。
Аннотация
本研究では、軽量な双方向音声強化モデルであるディープフィルターネット2を個人化する新しい手法を提案している。
まず、話者情報をエンコードするためにECAPA-TDNNを使用する。次に、ディープフィルターネット2のエンコーダに話者情報を統合する2つの手法を検討する。1つは話者情報を両ブランチに連結する統一エンコーダ、もう1つは話者情報を個別のブランチに入力する双方向エンコーダである。
実験の結果、統一エンコーダを用いた個人化モデルが最も良好な性能を示した。また、計算コストの増加も最小限に抑えられることが確認された。
さらに、提案手法をDNS5のブラインドテストデータセットで評価し、大規模モデルと比較しても遜色ない性能を発揮することを示した。このように、本研究で提案した個人化手法は、軽量な音声強化モデルの性能を大幅に向上させることができる。
Статистика
雑音環境下での平均PESQ値は2.10から2.36に向上した。
雑音環境下での平均STOI値は0.75から0.78に向上した。
雑音環境下での平均CSIG値は3.11から3.66に向上した。