이 논문은 전체 대역폭 음성 복원 문제를 다루며, 특히 음성의 지능성 향상에 초점을 맞추고 있다. 기존의 MaskSR 모델은 음질은 높지만 단어 오류율이 높은 문제가 있었다. 이를 해결하기 위해 MaskSR2 모델을 제안했다.
MaskSR2는 음성 인코더 부분에 의미론적 지식 증류(semantic knowledge distillation)를 도입했다. 사전 학습된 HuBERT 모델을 활용하여 목표 음성의 의미론적 표현을 예측하도록 학습시켰다. 이렇게 학습된 의미론적 특징은 생성 모델의 입력으로 사용되어 음향 토큰을 예측하도록 한다.
실험 결과, MaskSR2는 MaskSR 대비 단어 오류율을 19-38% 감소시켰으며, 다른 강력한 회귀 모델들과 비교해서도 경쟁력 있는 성능을 보였다. 또한 음질 측면에서도 우수한 성능을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות