核心概念
ノイズと残響が大きい環境では、従来の音声強化手法では過剰に音声を抑制してしまい、聴取時のアーティファクトや下流タスクのパフォーマンス低下を引き起こす。そこで我々は、軽量な SE モジュールとジェネレーティブなコーデックモジュールを組み合わせた新しい手法「逆転的な音声強化 (RestSE)」を提案する。SE モジュールがノイズを低減し、コーデックモジュールが残響除去と音声の復元を行う段階的なアプローチにより、音声品質を効果的に改善できる。
摘要
本論文では、ノイズと残響が大きい環境下での音声強化のための新しい手法「逆転的な音声強化 (RestSE)」を提案している。
提案手法は以下の2つの段階から構成される:
-
除雑段階 (DN 段階): 軽量な SE モジュールを用いてノイズを低減する。
-
残響除去・復元段階 (DR&RST 段階): ジェネレーティブなコーデックモジュールを用いて残響を除去し、音声を復元する。
コーデックモジュールでは、スカラー量子化 (SQ) とベクトル量子化 (VQ) の組み合わせを系統的に検討し、SQ-RVQ という新しい手法を提案している。これにより、主要成分の精度を高めつつ細部の情報も保持できる。
さらに、SE 出力と入力混合信号を融合する手法と、SE 段階の損失関数に重み付けを行う手法を導入することで、過剰な抑制を防ぎ、音声の復元性能を向上させている。
実験の結果、提案手法は従来手法に比べて客観的評価指標で優れた性能を示し、効果的な音声強化を実現できることが確認された。
统计
提案手法の PESQ 値は 1.443 で、従来手法の Wang et al. の 1.286 を上回っている。
提案手法の OVRL 値は 3.046 で、従来手法の Wang et al. の 3.01 を上回っている。
提案手法の STOI 値は 0.735 で、従来手法の Wang et al. の 0.69 を上回っている。
提案手法のパラメータ数は 15.04M で、従来手法の Wang et al. の 54.43M に比べて約 1/3 に抑えられている。
引用
"ノイズと残響が大きい環境では、従来の音声強化手法では過剰に音声を抑制してしまい、聴取時のアーティファクトや下流タスクのパフォーマンス低下を引き起こす。"
"我々は、軽量な SE モジュールとジェネレーティブなコーデックモジュールを組み合わせた新しい手法「逆転的な音声強化 (RestSE)」を提案する。"
"SQ-RVQ という新しい手法を提案している。これにより、主要成分の精度を高めつつ細部の情報も保持できる。"