이 연구는 음성 대화 시스템의 응답 시간을 단축하기 위해 음성 인식 모델에 예측 기능을 추가하는 것을 목표로 한다.
구체적으로 다음과 같은 두 가지 예측 기능을 제안한다:
예측적 발화 종료 감지: 발화 중간 부분의 정보를 활용하여 발화 종료 시점을 예측한다. 이를 위해 cross-attention 메커니즘을 활용한다.
예측적 음성 인식: 발화가 끝나기 전에 완전한 전사 결과를 생성한다. 이를 위해 미래 음성 입력 부분을 마스킹하는 훈련 전략을 사용한다.
실험 결과, 제안된 모델은 발화 종료 300ms 전까지 발화 종료 시점을 예측하고 미래 단어를 생성할 수 있었다. 또한 전체 음성 인식 성능도 향상되었다.
이러한 예측 기능을 통해 대화 시스템의 응답 시간을 단축하고 자연스러운 대화 흐름을 구현할 수 있을 것으로 기대된다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania