Core Concepts
本研究では、複合変換器ベースのメトリック生成的敵対的ネットワーク(CMGAN)モデルを提案し、音声強調の3つの主要タスク(除雑音、消音、超解像)において優れた性能を示した。
Abstract
本研究では、音声強調の3つの主要タスクに取り組んでいる。
除雑音:
提案するCMGANモデルは、既存の最先端手法を大幅に上回る性能を示した。
様々な評価指標(PESQ、SSNR、CSIG、CBAK、COVL、STOI)で優れた結果を得た。
入力特徴量や生成器アーキテクチャの詳細な検討を行い、設計上の重要な要素を明らかにした。
消音:
提案手法は、シミュレーションデータおよび実環境データの両方で優れた性能を示した。
メトリック判別器の設計に焦点を当て、各種客観評価指標(CD、LLR、FWSegSNR、SRMR)の観点から詳細な分析を行った。
超解像:
従来の時間領域や複素スペクトログラムベースの手法とは異なり、提案手法は複素時間周波数領域での超解像に取り組んだ。
マスキング手法の導入により、欠落した高周波成分の推定に効果的であることが示された。
全体として、提案手法CMGAN は音声強調の3つの主要タスクにおいて優れた性能を発揮し、既存手法を大きく上回る結果を示した。
Stats
除雑音タスクでは、提案手法のPESQ スコアが3.41、SSNR が11.10 dBと、既存手法を大きく上回った。
消音タスクでは、提案手法のCD が1.11、LLR が0.35、FWSegSNR が11.11 dB、SRMR が5.85と良好な結果を示した。