本研究では、位相再構築(PR)と音声強調(SE)の文脈において、一貫性を保持する新しい損失関数を提案している。従来の手法は位相を直接推定しようとするが、位相は時間シフトに極端に敏感で構造化されていないため、訓練が困難である。
提案手法では、振幅スペクトログラムと位相スペクトログラムが一貫性を持つように直接生成することで、この問題を回避する。具体的には、提案の損失関数LECは、生成された複素スペクトログラムが短時間フーリエ変換(STFT)の一貫性条件を満たすように最適化する。
PR タスクの実験では、提案手法がノイズ位相を上回る性能を示し、従来の位相損失関数よりも優れていることを確認した。SEタスクでも、VB-DMDおよびWSJ0-CHiME3データセットで、提案手法が従来手法に比べて優れた結果を得た。特に、低SNR条件の WSJ0-CHiME3 データセットでは、大幅な性能向上が見られた。これは、提案手法が位相の直接推定を必要とせず、振幅と位相の一貫性を確保することで、より広範な解空間を探索できるためと考えられる。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Pin-Jui Ku, ... às arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.16282.pdfPerguntas Mais Profundas