Concetti Chiave
다중 모달 정보(음향, 어휘, ASR 디코더 신호)를 활용하여 가상 비서에 대한 사용자 발화를 효과적으로 탐지할 수 있다.
Sintesi
이 연구는 가상 비서와의 음성 대화에서 사용자가 비서에게 발화했는지 여부를 탐지하는 문제를 다룹니다. 기존에는 사용자가 발화를 시작할 때 특정 트리거 문구를 사용해야 했지만, 이를 요구하지 않고 자연스러운 대화 흐름을 만들고자 합니다.
연구에서는 다음과 같은 접근법을 사용합니다:
오디오 신호만을 이용한 분류기 학습
자동 음성 인식(ASR) 시스템의 1-best 가설을 이용한 대규모 언어 모델(LLM) 학습
오디오 특징, ASR 디코더 신호, 1-best 가설을 모두 활용하는 다중 모달 시스템 학습
실험 결과, 다중 모달 정보를 활용한 시스템이 단일 모달 기반 시스템보다 최대 61% 향상된 성능을 보였습니다. 또한 LLM 크기 증가와 LoRA를 통한 효율적 미세 조정으로 추가 성능 향상을 달성했습니다.
Statistiche
기기 지향 발화의 평균 길이는 3.0±1.9초, 비 기기 지향 발화의 평균 길이는 3.7±3.6초입니다.
평가 데이터 중 기기 지향 발화의 12.3%가 트리거 문구로 시작합니다.
Citazioni
"음향 정보만으로는 배경 소음과 중첩 발화 하에서 신뢰할 수 없지만, 어휘 정보는 모호하거나 잘못 전사된 발화로 인해 문제가 있다."
"다중 모달 정보를 활용하면 텍스트 전용 및 오디오 전용 모델 대비 최대 39%와 61%의 상대적 동등 오류율(EER) 개선을 얻을 수 있다."