本論文では、ノイズと残響が大きい環境下での音声強化のための新しい手法「逆転的な音声強化 (RestSE)」を提案している。
提案手法は以下の2つの段階から構成される:
除雑段階 (DN 段階): 軽量な SE モジュールを用いてノイズを低減する。
残響除去・復元段階 (DR&RST 段階): ジェネレーティブなコーデックモジュールを用いて残響を除去し、音声を復元する。
コーデックモジュールでは、スカラー量子化 (SQ) とベクトル量子化 (VQ) の組み合わせを系統的に検討し、SQ-RVQ という新しい手法を提案している。これにより、主要成分の精度を高めつつ細部の情報も保持できる。
さらに、SE 出力と入力混合信号を融合する手法と、SE 段階の損失関数に重み付けを行う手法を導入することで、過剰な抑制を防ぎ、音声の復元性能を向上させている。
実験の結果、提案手法は従来手法に比べて客観的評価指標で優れた性能を示し、効果的な音声強化を実現できることが確認された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Hsin-Tien Ch... alle arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01150.pdfDomande più approfondite