Centrala begrepp
대규모 언어 모델의 문맥 학습 능력을 활용하여 검색 기반 생성 기법을 통해 음성 인식 정확도를 향상시킬 수 있다.
Sammanfattning
이 논문은 대규모 언어 모델(LLM)을 활용한 음성 인식(ASR) 정확도 향상 방법을 제안한다. 기존 LLM 기반 ASR 방법은 음성 인코더의 성능 한계로 인해 특히 억양 변화가 있는 경우 정확도가 낮은 문제가 있었다. 이를 해결하기 위해 저자들은 LA-RAG(Retrieval-Augmented Generation) 기법을 제안했다.
LA-RAG는 다음과 같은 핵심 구성 요소로 이루어진다:
- 음성 토크나이저: 음성 데이터와 텍스트 데이터의 토큰 수준 정렬을 수행한다.
- 데이터스토어 생성: 토큰 수준의 음성-텍스트 쌍과 전체 시퀀스 정보를 저장한다.
- 음성 검색: 입력 음성에 대해 유사한 음성 예시를 검색하고, N-best 결과와 함께 LLM에 제공한다.
- LLM 프롬프팅: 검색된 예시와 입력 음성, N-best 결과를 LLM에 제공하여 문맥 학습을 수행한다.
실험 결과, LA-RAG는 기존 LLM 기반 ASR 방법에 비해 특히 억양 변화가 있는 데이터셋에서 유의미한 성능 향상을 보였다. 이는 LLM의 문맥 학습 능력과 정확한 음성-텍스트 매핑을 통해 다양한 음성 조건에 강인한 ASR 모델을 구축할 수 있음을 보여준다.
Statistik
기존 ASR 모델의 CER(Character Error Rate)은 AISHELL에서 5.18%, 다양한 중국어 방언 데이터셋에서 평균 26.39%였다.
LA-RAG(CTC 기반)의 CER은 AISHELL에서 4.56%, 다양한 중국어 방언 데이터셋에서 평균 25.03%로 개선되었다.
LA-RAG(AED 기반)의 CER은 AISHELL에서 4.61%, 다양한 중국어 방언 데이터셋에서 평균 25.15%로 개선되었다.
Citat
"대규모 언어 모델의 문맥 학습 능력을 활용하여 검색 기반 생성 기법을 통해 음성 인식 정확도를 향상시킬 수 있다."
"LA-RAG는 특히 억양 변화가 있는 데이터셋에서 유의미한 성능 향상을 보였다."