이 연구는 음성 기반 가상 비서와의 상호작용에서 사용자가 기기를 향해 말하는지 여부를 감지하는 문제를 다룹니다. 일반적으로 사용자는 먼저 트리거 문구를 말한 후 명령을 내리지만, 이러한 방식은 자연스러운 대화 흐름을 방해할 수 있습니다. 따라서 이 연구에서는 트리거 문구 없이도 기기 지향 음성을 감지할 수 있는 방법을 탐구합니다.
연구진은 세 가지 접근법을 시도했습니다:
다중 모달 정보를 활용하면 텍스트 전용 및 오디오 전용 모델 대비 최대 39%와 61%의 상대적인 동등 오류율(EER) 개선이 가능했습니다. LLM 크기를 늘리고 저순위 적응(LoRA)을 사용하면 추가로 최대 18%의 상대적인 EER 감소를 달성할 수 있었습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Dominik Wage... alle arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14438.pdfDomande più approfondite