본 연구 논문에서는 지시형 학습 데이터 없이도 엔드 투 엔드 음성 비서 모델을 훈련하는 새로운 패러다임인 DiVA (Distilled Voice Assistant)를 제안합니다.
기존의 음성 비서 모델들은 음성과 텍스트를 별도로 모델링하여 음성 정보 손실 및 복잡성 증가 문제를 안고 있었습니다. 본 연구는 텍스트 기반 LLM의 출력 분포를 활용한 지식 증류 기법을 통해 음성 인식 (ASR) 데이터만으로도 텍스트 기반 LLM의 기능을 음성으로 확장하는 것을 목표로 합니다.
DiVA는 Whisper의 인코더를 활용하여 음성 특징을 추출하고, Whisper의 디코더를 Q-Former로 변환하여 음성-텍스트 특징 정렬을 수행합니다. 훈련 과정에서는 텍스트 기반 LLM의 입력 및 출력 분포를 활용한 두 가지 손실 함수를 사용합니다. 첫째, LLM 입력에서 음성 및 텍스트 임베딩 간의 거리를 최소화하는 크로스 모달 토큰 정렬 손실을 사용합니다. 둘째, 텍스트 기반 LLM의 응답 분포를 타겟으로 하여 음성 입력에 대한 모델의 출력 분포와의 KL Divergence를 최소화하는 지식 증류 손실을 사용합니다.
DiVA는 음성 질문 답변, 분류 및 번역 작업에서 기존 SFT 모델 대비 우수한 성능을 보였습니다. 특히, 사용자 선호도 평가에서 DiVA는 72%의 높은 선호도를 기록하며, 100배 이상의 훈련 연산량을 사용하는 Qwen 2 Audio보다 우수한 성능을 보였습니다.
DiVA는 기존의 지도 학습 기반 음성 LLM 훈련 방식의 한계를 극복하고, ASR 데이터만을 사용하여 효율적인 훈련과 뛰어난 일반화 능력을 달성했습니다. 이는 새로운 음성 지시형 데이터셋 구축 없이도 고성능 음성 비서 모델 개발이 가능함을 시사합니다.
본 연구는 음성 LLM 훈련에 새로운 패러다임을 제시하며, 적은 데이터와 계산 자원으로도 효과적인 음성 처리 모델 개발이 가능하도록 합니다.
DiVA는 텍스트 기반 LLM의 성능에 의존적이며, 텍스트 기반 LLM의 편향을 그대로 물려받을 수 있습니다. 향후 연구에서는 텍스트 기반 LLM의 편향을 완화하고, 다양한 언어 및 작업에 대한 일반화 성능을 향상시키는 데 집중해야 합니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問