소음과 잔향이 심각한 환경에서 기존 음성 향상 방법은 과도한 음성 억제로 인해 청취 시 아티팩트를 발생시키고 하위 작업 성능을 저하시킨다. 이를 극복하기 위해 우리는 경량 SE 모듈과 생성 코덱 모듈을 결합하여 점진적으로 음성 품질을 향상시키는 새로운 접근법인 Restorative SE(RestSE)를 제안한다.
본 연구에서는 실시간 응용 프로그램을 위한 경량 음성 향상 네트워크인 LiSenNet을 제안한다. 서브밴드 다운샘플링 및 업샘플링 블록과 이중 경로 순환 모듈을 설계하여 대역별 특징과 시간-주파수 패턴을 효과적으로 포착한다. 또한 노이즈 탐지기를 개발하여 계산 비용을 절감하는 적응형 음성 향상을 수행한다. 실험 결과, 제안된 LiSenNet은 최신 모델 대비 절반 수준의 파라미터와 연산량으로도 경쟁력 있는 성능을 달성할 수 있음을 보여준다.
본 연구는 크기 및 위상 스펙트럼을 병렬로 명시적으로 향상시키는 새로운 음성 향상 네트워크 MP-SENet을 제안한다. MP-SENet은 변환기 기반 인코더-디코더 구조를 사용하여 크기 및 위상 스펙트럼을 동시에 향상시킴으로써 크기-위상 간 보상 효과를 완화하고 향상된 음성의 지각적 품질을 높인다.