이 논문은 다화자 음성 인식(MTASR)에서 CTC(Connectionist Temporal Classification) 기반 모델의 역할을 분석하고, 이를 활용한 화자 인식 CTC(SACTC) 기법을 제안한다.
주요 내용은 다음과 같다:
CTC 기반 모델이 음향 임베딩 내에서 서로 다른 화자의 토큰을 시간적으로 구분하여 표현하는 것을 확인했다. 이는 CTC의 비자동회귀적 재정렬 능력에 기인한 것으로 분석된다.
이러한 CTC의 화자 분리 능력에 착안하여, 화자 인식 CTC(SACTC) 기법을 제안했다. SACTC는 베이즈 위험 CTC 프레임워크를 활용하여 인코더가 서로 다른 화자의 토큰을 특정 시간 프레임에 표현하도록 제약한다.
실험 결과, SOT-SACTC 모델이 기존 SOT-CTC 모델 대비 전반적으로 10% 이상, 저중첩 구간에서 15% 이상의 WER 감소를 보였다. 이는 SACTC가 화자 분리 능력을 향상시켜 다화자 음성 인식 성능을 개선할 수 있음을 보여준다.
또한 SACTC 모델은 AED 단독 디코딩 시 고중첩 구간에서 성능 향상을 보였는데, 이는 SACTC가 화자 구분성이 높은 임베딩을 생성함을 시사한다.
이 연구는 CTC 기반 기법을 다화자 음성 인식 분야에 처음 적용했다는 점에서 의의가 있으며, 향후 스트리밍 환경이나 비자동회귀 음성 인식 등으로 확장될 수 있을 것으로 기대된다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Jiawen Kang,... às arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12388.pdfPerguntas Mais Profundas