청각 대형 언어 모델을 활용하여 평균 의견 점수(MOS), 화자 유사도(SIM) 예측, 음성 품질 A/B 테스트, 자연어 기반 음성 품질 평가 등 다양한 음성 품질 평가 작업을 수행할 수 있다.
본 연구에서는 Whisper 인코더와 WavLM 인코더를 활용하여 음성의 의미적 내용과 화자 정보를 각각 모델링하고, 단계적 학습 접근법과 프롬프트 인식 LoRA 가중치 어댑터를 통해 다양한 음성 관련 과제에서 강건한 일반화 성능을 달성하는 WavLLM 모델을 제안한다.
Dynamic-SUPERB는 음성 모델의 지시 튜닝 능력을 종합적으로 평가하기 위한 벤치마크로, 다양한 음성 처리 과제를 포함하며 지속적인 커뮤니티 기여를 통해 확장되는 특징을 가진다.