이 논문에서는 위상 복원(PR) 및 음성 향상(SE) 작업에서 위상 정보를 복원하기 위한 새로운 일관성 보존 손실 함수를 제안한다. 기존 기술들은 위상을 직접 추정하는 데 초점을 맞추었지만, 이는 위상 정보가 시간 이동에 매우 민감하고 구조화되지 않은 특성으로 인해 어려움이 있었다.
제안된 손실 함수는 일관성 있는 복소수 스펙트로그램을 생성하도록 강제한다. 즉, 추정된 위상 스펙트로그램이 추정된 진폭 스펙트로그램과 일관성을 가지도록 한다. 이를 통해 원래의 위상을 직접 추정할 필요 없이 음질을 유지할 수 있다.
PR 실험에서 제안된 손실 함수는 기존 손실 함수들보다 우수한 성능을 보였다. SE 실험에서도 제안 기법은 기존 기법들과 비교하여 개선된 성능을 보였으며, 특히 낮은 SNR 환경에서 더 큰 성능 향상을 달성했다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania