이 논문에서는 다중 화자 자동 음성 인식을 위한 두 가지 방법을 제안한다.
첫째, 중첩 인코딩 분리(EncSep)를 통해 CTC 손실을 활용하여 인코더 표현을 개선한다. 인코더의 중첩된 음성 임베딩을 분리기를 통해 단일 화자 임베딩으로 변환하고, 이를 활용하여 CTC 손실을 계산한다. 이를 통해 복잡한 시나리오(3명 화자, 잡음 환경)에서 인코더 표현을 향상시킬 수 있다.
둘째, 단일 화자 정보 안내 직렬화 출력 훈련(GEncSep)을 제안한다. 분리된 단일 화자 임베딩을 디코더에 제공하여 주의 메커니즘이 다양한 화자 정보에 집중할 수 있도록 한다. 이를 통해 Libri2Mix와 Libri3Mix의 잡음 환경에서 각각 12% 이상, 9% 이상의 성능 향상을 달성했다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Hao Shi, Yua... klo arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.00815.pdfSyvällisempiä Kysymyksiä