ERVQ는 신경망 오디오 코덱에서 잔차 벡터 양자화(RVQ) 프레임워크를 개선하여 코드북 붕괴 문제를 해결하고 양자화 기능을 향상시켜, 더 나은 오디오 압축 및 재구성 품질을 제공하는 기술입니다.
SNAC은 다중 스케일에서 작동하는 양자화기를 사용하여 기존 RVQ 방식보다 오디오 압축 효율성을 향상시킨 신경망 오디오 코덱입니다.
본 논문에서는 단일 양자화기와 초저토큰으로 고품질 오디오 재구성을 달성하는 새로운 음향 코덱 모델인 WavTokenizer를 제안하며, 이를 통해 오디오 언어 모델링의 압축률과 의미적 풍부함을 향상시키는 방법을 제시합니다.