Core Concepts
본 연구에서는 Whisper 인코더와 WavLM 인코더를 활용하여 음성의 의미적 내용과 화자 정보를 각각 모델링하고, 단계적 학습 접근법과 프롬프트 인식 LoRA 가중치 어댑터를 통해 다양한 음성 관련 과제에서 강건한 일반화 성능을 달성하는 WavLLM 모델을 제안한다.
Abstract
본 연구에서는 WavLLM이라는 강건하고 적응적인 음성 대규모 언어 모델을 제안한다. WavLLM은 Whisper 인코더와 WavLM 인코더를 활용하여 음성의 의미적 내용과 화자 정보를 각각 모델링한다.
첫 번째 단계에서는 단일 과제 학습을 통해 음성 처리 및 이해 능력을 기반으로 구축한다. 자동 음성 인식, 음성 번역, 화자 검증, 감정 인식, 음성 질문 답변 등의 과제를 활용한다.
두 번째 단계에서는 프롬프트 인식 LoRA 가중치 어댑터를 도입하여 복합 과제 수행 능력을 향상시킨다. 다양한 단일 과제 지침을 결합한 복합 과제 데이터셋을 활용하여 모델을 학습시킨다. 이를 통해 모델은 복잡한 지침에 대한 일반화 능력을 향상시킬 수 있다.
실험 결과, WavLLM은 다양한 음성 관련 과제에서 최신 성능을 달성하며, 특히 복합 과제와 Chain-of-Thought 기반 과제에서 강건한 일반화 능력을 보여준다. 또한 중국 대학입학시험(Gaokao)의 영어 듣기 이해 과제에서도 우수한 성능을 보였다.
Stats
자동 음성 인식 과제에서 테스트 세트 clean과 others에 대해 각각 2.0%와 4.8%의 WER을 달성하였다.
음성 번역 과제에서 CoVoST2 데이터셋의 En2De 방향에 대해 23.6 BLEU 점수를 달성하였다.
화자 검증 과제에서 VoxCeleb1 테스트 세트에 대해 91% 정확도를 달성하였다.
감정 인식 과제에서 IEMOCAP 세션 5에 대해 72% 정확도를 달성하였다.
음성 질문 답변 과제에서 중국 대학입학시험(Gaokao) 영어 듣기 이해 문제에 대해 67.55%의 정확도를 달성하였다.
Quotes
"본 연구에서는 Whisper 인코더와 WavLM 인코더를 활용하여 음성의 의미적 내용과 화자 정보를 각각 모델링한다."
"첫 번째 단계에서는 단일 과제 학습을 통해 음성 처리 및 이해 능력을 기반으로 구축한다."
"두 번째 단계에서는 프롬프트 인식 LoRA 가중치 어댑터를 도입하여 복합 과제 수행 능력을 향상시킨다."