본 연구는 EEND-EDA(End-to-End Neural Diarization with Encoder-Decoder based Attractor) 모델을 개선하였다. EEND-EDA는 동적 화자 수를 처리할 수 있는 end-to-end 신경망 기반 화자 분할 모델이다. 그러나 EEND-EDA는 화자 활동을 정확하게 포착하는 데 어려움이 있다.
이를 해결하기 위해 본 연구는 다음과 같은 접근법을 제안하였다:
실험 결과, 제안 방법을 적용한 모델이 공개 데이터셋 Mini LibriSpeech에서 화자 분할 오류율을 30.95%에서 28.17%로 개선하였다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by PeiYing Lee,... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14268.pdfPerguntas Mais Profundas