이 연구는 단일 화자 음성 인식 모델인 Whisper를 활용하여 다화자 대화 상황에서 화자 구분 정보를 활용해 효과적으로 각 화자의 발화를 인식할 수 있는 방법을 제안한다.
주요 내용은 다음과 같다:
화자 구분 정보를 활용하여 Whisper 모델의 내부 표현을 변환하는 Frame-Level Diarization Dependent Transformations (FDDT) 모듈을 제안했다. 이를 통해 단일 화자 모델을 화자 구분 기반 음성 인식 모델로 변환할 수 있다.
FDDT 모듈의 파라미터 구조와 초기화 방법에 따른 성능 변화를 분석했다. 바이어스 파라미터만 사용하거나 억제적 초기화 방법을 사용하는 것이 효과적임을 확인했다.
다양한 데이터셋(NOTSOFAR-1, AMI, Libri2Mix)에서 실험을 수행했으며, 제안 방법이 기존 다화자 음성 인식 모델들을 능가하는 성능을 보였다.
데이터 규모 확장과 모델 크기 증가에 따른 성능 향상을 확인했다. 또한 CTC 헤드 추가와 사전 학습 기법 적용이 성능 향상에 도움이 됨을 보였다.
이 연구는 단일 화자 음성 인식 모델을 다화자 상황에 효과적으로 적용할 수 있는 새로운 방법을 제시했다는 점에서 의의가 있다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Alex... lúc arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09543.pdfYêu cầu sâu hơn