본 논문은 실시간 처리와 낮은 지연 시간이 필요한 음성 처리 문제에 적용할 수 있는 효율적인 자기 주의 모듈을 제안한다. 제안된 모듈은 두 가지 구성 요소로 이루어져 있다:
SA는 기존의 마스크 비인과 주의(Masked Acausal Attention, MAA) 방법보다 계산 및 메모리 효율성이 높다. LLSA는 추가적인 계산 복잡성을 가지지만, 지연 시간 누적 문제를 해결한다.
제안된 저지연 주의 모듈을 HuBERT 모델에 적용하여 스트리밍 HuBERT(SHuBERT)를 만들었다. 자동 음성 인식(ASR) 하위 작업에서 SHuBERT는 기존 모델보다 성능이 크게 향상되었으며, 지연 시간도 크게 줄었다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Jianbo Ma,Si... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2302.13451.pdfاستفسارات أعمق