Główne pojęcia
신경 오디오 코덱에서 발생하는 이산 표현 불일치(DRI) 현상을 정량적으로 분석하고, 이를 완화하기 위한 슬라이스 일관성 방법과 섭동 일관성 방법을 제안하였다. 이를 통해 신경 코덱 언어 모델의 성능을 향상시킬 수 있다.
Streszczenie
이 논문은 신경 오디오 코덱에서 발생하는 이산 표현 불일치(DRI) 현상을 분석하고 이를 완화하는 방법을 제안한다.
- DRI 현상 분석:
- 텍스트 토큰화와 달리, 오디오 토큰화 과정에서 동일한 오디오 세그먼트가 다른 이산 오디오 토큰 시퀀스로 인코딩되는 문제가 발생한다.
- 이는 신경 오디오 코덱의 인코더가 문맥 정보를 고려하기 때문이며, 이로 인해 단일 오디오 세그먼트가 다양한 이산 토큰 시퀀스로 표현될 수 있다.
- 정량적 분석 결과, 기존 신경 오디오 코덱들은 낮은 일관성을 보이며, 특히 깊은 레이어로 갈수록 일관성이 크게 감소한다.
- 일관성 향상 방법 제안:
- 슬라이스 일관성 방법: 오디오 세그먼트를 무작위로 슬라이스하고, 이 세그먼트의 인코딩 표현이 전체 오디오의 인코딩 표현과 유사하도록 제약한다.
- 섭동 일관성 방법: 오디오에 미미한 스펙트럼 섭동을 가한 후의 인코딩 표현이 원본 오디오의 인코딩 표현과 유사하도록 제약한다.
- 실험 결과:
- 제안 방법은 기존 모델 대비 일관성 지표에서 21.47%, 29.17%, 36.29% 향상을 보였다.
- 신경 코덱 언어 모델(VALL-E)에 적용 시, 3.72% WER 감소와 5.68% 화자 유사도 향상을 달성했다.
- 대규모 데이터(44,000시간)에서도 효과적인 것으로 나타났다.
Statystyki
동일한 오디오 세그먼트가 다른 이산 오디오 토큰 시퀀스로 인코딩되는 현상이 관찰되었다.
기존 신경 오디오 코덱의 일관성 지표는 첫 번째 레이어에서 47.43%, 첫 3개 레이어에서 61.49%에 불과했다.
Cytaty
"동일한 오디오 세그먼트가 다른 이산 오디오 토큰 시퀀스로 인코딩되는 현상"
"기존 신경 오디오 코덱의 일관성 지표는 첫 번째 레이어에서 47.43%, 첫 3개 레이어에서 61.49%에 불과했다."