核心概念
대형 언어 모델을 활용하여 음향 정보, ASR 디코더 신호 및 텍스트 정보를 결합함으로써 음성 명령 감지 성능을 향상시킬 수 있다.
要約
이 연구는 음성 기반 가상 비서와의 상호작용에서 사용자가 기기를 향해 말하는지 여부를 감지하는 문제를 다룹니다. 일반적으로 사용자는 먼저 트리거 문구를 말한 후 명령을 내리지만, 이러한 방식은 자연스러운 대화 흐름을 방해할 수 있습니다. 따라서 이 연구에서는 트리거 문구 없이도 기기 지향 음성을 감지할 수 있는 방법을 탐구합니다.
연구진은 세 가지 접근법을 시도했습니다:
- 오디오 파형에서 얻은 음향 정보만을 사용하여 분류기를 학습시킴
- 자동 음성 인식(ASR) 시스템의 출력(1-best 가설)을 대형 언어 모델(LLM)의 입력 특징으로 사용
- 음향 특징, ASR 디코더 신호 및 1-best 가설을 LLM에 결합하는 다중 모달 시스템
다중 모달 정보를 활용하면 텍스트 전용 및 오디오 전용 모델 대비 최대 39%와 61%의 상대적인 동등 오류율(EER) 개선이 가능했습니다. LLM 크기를 늘리고 저순위 적응(LoRA)을 사용하면 추가로 최대 18%의 상대적인 EER 감소를 달성할 수 있었습니다.
統計
음성 명령이 포함된 약 40,000개의 발화와 음성 명령이 포함되지 않은 약 40,000개의 발화로 구성된 균형잡힌 학습 데이터셋
약 14,000개의 음성 명령 발화와 약 23,000개의 비음성 명령 발화로 구성된 평가 데이터셋
약 1,960,000개의 기기 지향 발화와 약 1,980,000개의 비기기 지향 발화로 구성된 추가 텍스트 데이터셋
引用
"상호작용의 자연스러운 대화 흐름을 위해 사용자가 매번 트리거 문구를 말할 필요가 없어야 한다."
"다중 모달 정보를 활용하면 텍스트 전용 및 오디오 전용 모델 대비 최대 39%와 61%의 상대적인 동등 오류율(EER) 개선이 가능했다."