Concepts de base
다단계 및 다규모 검색 보강 기법인 M2R-Whisper를 제안하여 Whisper 모델의 음성 인식 성능을 향상시킴
Résumé
이 논문은 Whisper 모델의 성능 향상을 위해 다단계 및 다규모 검색 보강 기법인 M2R-Whisper를 제안한다.
M2R-Whisper는 두 가지 핵심 구성 요소로 이루어져 있다:
- 전처리 단계의 문장 수준 ICL (In-Context Learning):
- 문장 수준 데이터스토어를 구축하여 유사한 오디오-텍스트 쌍을 검색하고, 이를 Whisper 모델에 프롬프트로 제공하여 문맥 정보를 활용한다.
- 후처리 단계의 토큰 수준 kNN (k-Nearest Neighbors) 검색 보강:
- 토큰 수준 데이터스토어를 구축하여 토큰 단위로 검색을 수행하고, 검색 결과를 Whisper 모델의 출력 분포와 결합하여 최종 예측을 생성한다.
이 두 가지 접근법을 결합함으로써 다양한 유형의 인식 오류를 효과적으로 해결할 수 있다.
실험 결과, M2R-Whisper는 AISHELL-1 Mandarin 데이터셋에서 5.76%의 문자 오류율(CER)을 달성하여 30.73%의 상대적 오류율 감소를 보였다. 또한 4개의 Mandarin 방언 데이터셋에서도 평균 23.66%의 상대적 오류율 감소를 달성하며 우수한 성능을 보였다.
Stats
Whisper 모델은 AISHELL-1 데이터셋에서 5.76%의 문자 오류율(CER)을 달성했다.
M2R-Whisper는 AISHELL-1 데이터셋에서 4.11%의 CER을 달성하여 30.73%의 상대적 오류율 감소를 보였다.
M2R-Whisper는 4개의 Mandarin 방언 데이터셋에서 평균 21.71%의 CER을 달성하여 23.66%의 상대적 오류율 감소를 보였다.
Citations
"State-of-the-art models like OpenAI's Whisper exhibit strong performance in multilingual automatic speech recognition (ASR), but they still face challenges in accurately recognizing diverse subdialects."
"By synergistically combining sentence-level and token-level retrieval strategies, M2R-whisper effectively mitigates various types of recognition errors."