이 연구는 가상 비서와의 음성 대화에서 사용자가 비서에게 발화했는지 여부를 탐지하는 문제를 다룹니다. 기존에는 사용자가 발화를 시작할 때 특정 트리거 문구를 사용해야 했지만, 이를 요구하지 않고 자연스러운 대화 흐름을 만들고자 합니다.
연구에서는 다음과 같은 접근법을 사용합니다:
실험 결과, 다중 모달 정보를 활용한 시스템이 단일 모달 기반 시스템보다 최대 61% 향상된 성능을 보였습니다. 또한 LLM 크기 증가와 LoRA를 통한 효율적 미세 조정으로 추가 성능 향상을 달성했습니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Dominik Wage... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14438.pdfDeeper Inquiries