Основные понятия
본 연구는 EEND-EDA 모델의 낮은 층의 Transformer 인코더에 보조 손실 함수를 적용하여 자기 주의력 메커니즘을 향상시켜 화자 활동을 더 잘 포착할 수 있도록 하였다.
Аннотация
본 연구는 EEND-EDA(End-to-End Neural Diarization with Encoder-Decoder based Attractor) 모델을 개선하였다. EEND-EDA는 동적 화자 수를 처리할 수 있는 end-to-end 신경망 기반 화자 분할 모델이다. 그러나 EEND-EDA는 화자 활동을 정확하게 포착하는 데 어려움이 있다.
이를 해결하기 위해 본 연구는 다음과 같은 접근법을 제안하였다:
- EEND-EDA 모델의 낮은 층의 Transformer 인코더에 화자 활동 정보를 활용한 보조 손실 함수를 적용하여 자기 주의력 메커니즘을 강화
- 이를 통해 화자 활동을 더 잘 포착할 수 있도록 함
실험 결과, 제안 방법을 적용한 모델이 공개 데이터셋 Mini LibriSpeech에서 화자 분할 오류율을 30.95%에서 28.17%로 개선하였다.
Статистика
훈련 데이터셋의 총 대화 시간은 34.45시간이며, 화자 간 중첩 비율은 60.49%이다.
검증 데이터셋의 총 대화 시간은 21.08시간이며, 화자 간 중첩 비율은 47.86%이다.
Цитаты
"EEND-EDA, 그러나 로컬 화자 동적을 정확하게 포착하는 데 어려움을 겪고 있다."
"본 연구는 보조 손실 함수를 제안하여 EEND-EDA 모델의 낮은 층 Transformer 인코더를 안내하여 자기 주의력 모듈의 효과를 높이고자 한다."