Grunnleggende konsepter
SNAC은 다중 스케일에서 작동하는 양자화기를 사용하여 기존 RVQ 방식보다 오디오 압축 효율성을 향상시킨 신경망 오디오 코덱입니다.
본 논문에서는 다중 시간 해상도에서 양자화를 도입하여 오디오의 다중 스케일 이산 표현을 형성함으로써 현재 오디오 잔차 양자화 접근 방식을 확장한 SNAC(다중 스케일 신경망 오디오 코덱)을 소개합니다. 객관적인 지표와 주관적인 평가를 모두 포함한 실험 결과, 제안된 방법이 보다 효율적인 압축을 달성한다는 것을 입증했습니다. 또한 노이즈 블록, 깊이별 컨볼루션 및 로컬 윈도우 어텐션을 통합하여 RVQGAN 프레임워크를 개선했습니다.
신경망 오디오 압축 방법은 최근 기존 코덱보다 낮은 비트 전송률을 달성하면서 경쟁력 있는 품질을 유지했습니다. 이러한 방법은 이산 잠재 변수를 사용하여 오디오를 표현함으로써 특히 생성 모델에서 압축 이상으로 유용함이 입증되었습니다. 그러나 기존 오디오 토크나이저는 높은 재구성 품질을 제공할 수 있지만 장기 구조를 캡처하는 기능이 제한되는 높은 토큰 세분성으로 인해 어려움을 겪습니다. 이상적으로, 이산 오디오 토큰은 사운드의 상위 수준 측면도 나타내야 합니다.