TF-GridNet 기반 연속 음성 분리와 전사 정보를 활용한 다화자 구분을 통해 회의 인식 성능을 향상시킬 수 있다.
아라스팟은 40개의 아랍어 키워드를 학습하고 다양한 온라인 데이터 증강 기법과 ConformerGRU 모델 아키텍처를 도입하여 최첨단 성능을 달성했다.
본 논문에서는 FastConformer 아키텍처를 기반으로 한 효율적이고 정확한 스트리밍 음성 인식 모델을 제안한다. 인코더의 과거 및 미래 문맥을 제한하고 비자기회귀 인코더를 자기회귀적으로 작동하게 하는 활성화 캐싱 메커니즘을 도입하여 스트리밍 애플리케이션에 적합하도록 FastConformer 아키텍처를 개선하였다. 또한 CTC와 RNNT 디코더를 공유하는 하이브리드 아키텍처를 제안하여 계산 비용을 절감하고 정확도를 향상시켰다.
본 논문은 음소 인식, 표현 학습 및 지식 전이를 활용한 텍스트 독립적 음성-음소 정렬을 위한 새로운 접근 방식을 제안한다.
LLM과 음성 인코더를 결합한 음성 인식 모델의 성능을 중국어 대규모 데이터셋에서 평가하고, 다양한 구성 요소 간 상호작용을 분석하여 최적의 모델 구조를 제시한다.
음성 변환 기술을 이용하여 생성된 변환된 목소리에서 진짜 화자를 식별할 수 있는 방법을 탐구하였다.
본 논문은 주의력 중복 감소와 청크 수준 FFN 구조를 통해 효율적인 음성 인식 네트워크 EfficientASR을 제안한다.
이 연구는 스웨덴어 음성 인식을 위한 강건한 화자 독립 음향 모델을 구축하는 것을 목표로 합니다.
벵골어 연속 음성에서 화자의 지역을 인공 신경망을 통해 구분하는 방법을 제안한다.
복합 오디오 환경에서 다중 작업 오디오 소스 분리 기반의 음성과 노래 음성 통합 인식 모델을 제안한다. 이 모델은 혼합된 오디오를 음성 트랙과 노래 음성 트랙으로 분리하고, 각 트랙의 내용을 인식한다.