이 논문에서는 aTENNuate라는 효율적인 온라인 원시 음성 향상을 위한 깊은 상태 공간 오토인코더를 소개한다. 이 네트워크는 주로 원시 음성 제거 작업에 대해 평가되었으며, 슈퍼 해상도 및 디퀀타이제이션과 같은 추가 작업에 대해서도 평가되었다. aTENNuate는 PESQ 점수, 매개변수 수, MAC, 지연 시간 측면에서 이전 실시간 제거 모델을 능가한다. 원시 파형 처리 모델로서도 최소한의 청각적 인공물로 깨끗한 신호에 대한 높은 충실도를 유지한다. 또한 노이즈 입력이 4000Hz와 4비트로 압축되어도 성능이 유지되어, 저사양 환경에서의 일반적인 음성 향상 기능을 시사한다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések