Paraformer-v2는 기존 Paraformer 모델의 한계를 극복하고 다국어 적응성과 소음 강건성을 향상시킨 비자기회귀 음성 인식 모델이다.
제안된 모델은 사전 학습된 화자 분리 모듈의 출력을 활용하여 다화자 음성 인식과 대상 화자 음성 인식을 모두 수행할 수 있는 종단 간 프레임워크를 제공한다. 메타-캣(Meta-Cat) 기법을 통해 화자 정보를 음성 인식 임베딩에 효과적으로 주입하여 복잡한 화자 필터링 메커니즘 없이도 강력한 다화자 음성 인식 성능을 달성한다.
대규모 언어 모델의 문맥 학습 능력을 활용하여 검색 기반 생성 기법을 통해 음성 인식 정확도를 향상시킬 수 있다.
TF-GridNet 기반 연속 음성 분리와 전사 정보를 활용한 다화자 구분을 통해 회의 인식 성능을 향상시킬 수 있다.
LLM과 음성 인코더를 결합한 음성 인식 모델의 성능을 중국어 대규모 데이터셋에서 평가하고, 다양한 구성 요소 간 상호작용을 분석하여 최적의 모델 구조를 제시한다.
본 논문은 주의력 중복 감소와 청크 수준 FFN 구조를 통해 효율적인 음성 인식 네트워크 EfficientASR을 제안한다.
코드 전환 음성 인식에서 언어 식별을 개선하여 성능을 향상시키는 것이 핵심 목표이다.