본 연구는 EEND-EDA(End-to-End Neural Diarization with Encoder-Decoder based Attractor) 모델을 개선하였다. EEND-EDA는 동적 화자 수를 처리할 수 있는 end-to-end 신경망 기반 화자 분할 모델이다. 그러나 EEND-EDA는 화자 활동을 정확하게 포착하는 데 어려움이 있다.
이를 해결하기 위해 본 연구는 다음과 같은 접근법을 제안하였다:
실험 결과, 제안 방법을 적용한 모델이 공개 데이터셋 Mini LibriSpeech에서 화자 분할 오류율을 30.95%에서 28.17%로 개선하였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies