이 연구는 채널 인식 데이터 시뮬레이션 방법인 CADA-GAN을 제안한다. CADA-GAN은 두 단계로 구성된다:
채널 임베딩 추출: 채널 인코더를 통해 타겟 도메인 음성으로부터 채널 임베딩을 추출한다. 이 임베딩은 타겟 녹음 환경의 고유한 음향 특성을 캡처한다.
도메인 적응형 음성 합성: 추출된 채널 임베딩을 활용하여 GAN 아키텍처가 소스 도메인 음성을 타겟 도메인의 채널 특성을 모방하는 합성 음성으로 변환한다. 이를 통해 음성 내용은 유지하면서 타겟 도메인의 채널 특성을 반영한다.
CADA-GAN은 타겟 도메인 데이터의 양이 적어도 효과적으로 작동한다. 실험 결과, CADA-GAN은 Hakka Across Taiwan (HAT) 및 Taiwanese Across Taiwan (TAT) 데이터셋에서 각각 20.02%와 9.64%의 상대적인 문자 오류율 감소를 달성했다. 이는 CADA-GAN이 소스 및 타겟 도메인 음향 특성 간의 격차를 효과적으로 해소할 수 있음을 보여준다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Chien-Chun W... ב- arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12386.pdfשאלות מעמיקות