Core Concepts
복합 오디오 환경에서 다중 작업 오디오 소스 분리 기반의 음성과 노래 음성 통합 인식 모델을 제안한다. 이 모델은 혼합된 오디오를 음성 트랙과 노래 음성 트랙으로 분리하고, 각 트랙의 내용을 인식한다.
Abstract
이 논문은 복합 오디오 환경에서 음성과 노래 음성을 통합적으로 인식하는 JRSV 모델을 제안한다.
JRSV 모델은 두 개의 주요 모듈로 구성된다:
다중 작업 오디오 소스 분리(MTASS) 모듈: 혼합된 오디오를 음성 트랙과 노래 음성 트랙으로 분리하고, 동시에 배경 음악을 제거한다.
음성 인식(ASR) 모듈: 분리된 음성 트랙과 노래 음성 트랙의 내용을 각각 인식한다.
MTASS 모듈은 Conformer 기반 네트워크를 사용하여 분리 작업을 수행한다. ASR 모듈은 CTC/attention 하이브리드 구조를 사용한다. 또한 온라인 증류 기법을 도입하여 분리된 트랙의 표현력을 향상시킨다.
실험 결과, JRSV 모델은 기존 캐스케이드 시스템 대비 음성 인식 정확도를 41% 향상시키고, 노래 음성 인식 정확도를 57% 향상시켰다. 이는 MTASS 모듈이 효과적으로 혼합 오디오를 분리하고, ASR 모듈이 각 트랙의 내용을 정확히 인식할 수 있음을 보여준다.
Stats
혼합 오디오에서 음성 트랙의 CER은 기존 시스템 대비 41% 감소
혼합 오디오에서 노래 음성 트랙의 CER은 기존 시스템 대비 57% 감소
Quotes
"복합 오디오 환경에서 음성과 노래 음성을 통합적으로 인식하는 것은 중요하지만, 이전 연구에서는 이를 독립적으로 다루었다."
"JRSV 모델은 혼합 오디오를 효과적으로 분리하고, 각 트랙의 내용을 정확히 인식할 수 있다."