이 논문은 대규모 언어 모델(LLM)을 활용한 음성 인식(ASR) 정확도 향상 방법을 제안한다. 기존 LLM 기반 ASR 방법은 음성 인코더의 성능 한계로 인해 특히 억양 변화가 있는 경우 정확도가 낮은 문제가 있었다. 이를 해결하기 위해 저자들은 LA-RAG(Retrieval-Augmented Generation) 기법을 제안했다.
LA-RAG는 다음과 같은 핵심 구성 요소로 이루어진다:
실험 결과, LA-RAG는 기존 LLM 기반 ASR 방법에 비해 특히 억양 변화가 있는 데이터셋에서 유의미한 성능 향상을 보였다. 이는 LLM의 문맥 학습 능력과 정확한 음성-텍스트 매핑을 통해 다양한 음성 조건에 강인한 ASR 모델을 구축할 수 있음을 보여준다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Shaojun Li, ... pada arxiv.org 09-16-2024
https://arxiv.org/pdf/2409.08597.pdfPertanyaan yang Lebih Dalam