음성 인식

Masuk

wawasan - 음성 인식

소음에 강한 비자기회귀 트랜스포머를 이용한 향상된 음성 인식 모델: Paraformer-v2

Paraformer-v2는 기존 Paraformer 모델의 한계를 극복하고 다국어 적응성과 소음 강건성을 향상시킨 비자기회귀 음성 인식 모델이다.

다화자 음성 인식을 위한 메타 정보 연결 기반의 화자 정보 음성 임베딩

제안된 모델은 사전 학습된 화자 분리 모듈의 출력을 활용하여 다화자 음성 인식과 대상 화자 음성 인식을 모두 수행할 수 있는 종단 간 프레임워크를 제공한다. 메타-캣(Meta-Cat) 기법을 통해 화자 정보를 음성 인식 임베딩에 효과적으로 주입하여 복잡한 화자 필터링 메커니즘 없이도 강력한 다화자 음성 인식 성능을 달성한다.

대규모 언어 모델 기반 음성 인식 정확도 향상을 위한 검색 기반 생성 기법

대규모 언어 모델의 문맥 학습 능력을 활용하여 검색 기반 생성 기법을 통해 음성 인식 정확도를 향상시킬 수 있다.

연속 음성 분리와 전사 지원 다화자 구분을 통한 회의 인식

TF-GridNet 기반 연속 음성 분리와 전사 정보를 활용한 다화자 구분을 통해 회의 인식 성능을 향상시킬 수 있다.

중국어 공개 데이터셋에서 LLM 기반 음성 인식의 잠재력 탐구

LLM과 음성 인코더를 결합한 음성 인식 모델의 성능을 중국어 대규모 데이터셋에서 평가하고, 다양한 구성 요소 간 상호작용을 분석하여 최적의 모델 구조를 제시한다.

효율적인 음성 인식 네트워크: 주의력 중복 및 청크 수준 FFN 최적화를 통한 압축

본 논문은 주의력 중복 감소와 청크 수준 FFN 구조를 통해 효율적인 음성 인식 네트워크 EfficientASR을 제안한다.

코드 전환 구어체 음성 인식을 위한 앙상블 예측 기반 방법

코드 전환 음성 인식에서 언어 식별을 개선하여 성능을 향상시키는 것이 핵심 목표이다.

Tentang

Produk

Sumber Daya