본 논문은 장기 음성 및 텍스트 정보를 활용하여 신경 변환기 기반 음성 인식 성능을 향상시키는 새로운 접근법을 제안한다.
먼저 기존 신경 변환기 모델에 장기 텍스트 정보를 통합하는 LongFNT 모델을 제안했다. LongFNT-Text는 문장 수준 및 토큰 수준 통합 방법을 통해 과거 대화 내용을 활용하고, LongFNT-Speech는 장기 음성 정보를 인코더에 통합한다. 이 두 가지 방법을 결합한 LongFNT 모델이 가장 좋은 성능을 보였다.
이어서 실시간 처리를 위한 스트리밍 버전인 SLongFNT를 제안했다. SLongFNT-Text는 언어 모델 기반의 문맥 인코더를, SLongFNT-Speech는 청크 기반 어텐션 메커니즘을 활용하여 장기 정보를 효율적으로 활용한다. 실험 결과 SLongFNT 모델이 기존 스트리밍 모델 대비 큰 성능 향상을 보였다.
전반적으로 본 논문은 장기 음성 및 텍스트 정보를 활용하여 신경 변환기 기반 음성 인식 성능을 크게 향상시킬 수 있음을 보여주었다. 이는 실제 대화 상황에서 유용하게 활용될 수 있을 것으로 기대된다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Xun Gong,Yu ... klokken arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13423.pdfDypere Spørsmål