Conceitos essenciais
중첩 인코딩을 분리하여 CTC 손실을 활용함으로써 인코더 표현을 개선하고, 분리된 단일 화자 정보를 활용하여 디코딩 성능을 향상시킨다.
Resumo
이 논문에서는 다중 화자 자동 음성 인식을 위한 두 가지 방법을 제안한다.
첫째, 중첩 인코딩 분리(EncSep)를 통해 CTC 손실을 활용하여 인코더 표현을 개선한다. 인코더의 중첩된 음성 임베딩을 분리기를 통해 단일 화자 임베딩으로 변환하고, 이를 활용하여 CTC 손실을 계산한다. 이를 통해 복잡한 시나리오(3명 화자, 잡음 환경)에서 인코더 표현을 향상시킬 수 있다.
둘째, 단일 화자 정보 안내 직렬화 출력 훈련(GEncSep)을 제안한다. 분리된 단일 화자 임베딩을 디코더에 제공하여 주의 메커니즘이 다양한 화자 정보에 집중할 수 있도록 한다. 이를 통해 Libri2Mix와 Libri3Mix의 잡음 환경에서 각각 12% 이상, 9% 이상의 성능 향상을 달성했다.
Estatísticas
잡음 Libri2Mix 평가 세트에서 SOT 대비 12% 이상 상대 성능 향상
잡음 Libri3Mix 평가 세트에서 SOT 대비 9% 이상 상대 성능 향상
Citações
"중첩 인코딩을 분리하여 CTC 손실을 활용함으로써 인코더 표현을 개선할 수 있다."
"분리된 단일 화자 임베딩을 디코더에 제공하여 주의 메커니즘이 다양한 화자 정보에 집중할 수 있도록 한다."