Sortformer는 화자 구분과 음성 인식을 동시에 수행하는 새로운 신경망 모델입니다. 기존의 화자 구분 모델들은 순열 불변 손실 함수(Permutation Invariant Loss, PIL)를 사용하여 최적의 화자 순열을 찾는 데 어려움이 있었습니다. 이에 반해 Sortformer는 도착 시간 순서 정렬(Arrival Time Ordering, ATO) 기반의 Sort Loss를 도입하여 화자 순열 문제를 자동으로 해결합니다.
Sortformer는 또한 화자 구분 결과를 음성 인식 인코더 상태에 주입하는 방식으로 두 모듈을 통합합니다. 이를 통해 화자 구분 정보와 음성 인식 토큰을 일치시킬 수 있어, 토큰 기반 손실 함수를 사용하여 두 모듈을 동시에 최적화할 수 있습니다.
실험 결과, Sortformer는 기존 최신 화자 구분 모델들과 견줄만한 성능을 보였으며, 다화자 음성 인식 태스크에서도 우수한 성능을 달성했습니다. 또한 Sortformer는 모듈 간 통합이 용이하여 도메인 특화 모델 개발에 유리합니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Taejin Park,... ב- arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06656.pdfשאלות מעמיקות