이 논문은 실시간 음성 인식 모델의 성능을 평가하고 있다. 기존의 음성 인식 모델은 사전 녹음된 오디오를 처리하는 배치 처리 방식이었지만, 실시간 시나리오에서는 오디오를 분할하여 처리해야 한다.
논문에서는 세 가지 오디오 분할 알고리즘(고정 간격 분할, 음성 활성화 검출 기반 분할, 피드백 기반 분할)을 평가하였다. 각 알고리즘과 모델 조합의 단어 오류율(WER), 매치 오류율(MER), 단어 정보 손실(WIL)을 측정하여 성능을 비교하였다. 또한 종단 간 지연 시간을 측정하여 성능과 지연 시간의 관계를 분석하였다.
실험 결과, VAD 기반 분할 알고리즘이 가장 높은 성능을 보였지만 지연 시간이 가장 길었다. 고정 간격 분할은 지연 시간이 가장 짧았지만 성능이 가장 낮았다. 피드백 기반 분할은 성능과 지연 시간 사이의 절충안을 제공했다. 전반적으로 실시간 처리 시 배치 처리에 비해 성능이 크게 저하되었지만, 피드백 기반 분할 알고리즘을 사용하면 지연 시간을 크게 줄일 수 있다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Carlos Arria... في arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05674.pdfاستفسارات أعمق