복합 오디오 환경에서 다중 작업 오디오 소스 분리 기반의 음성과 노래 음성 통합 인식 모델을 제안한다. 이 모델은 혼합된 오디오를 음성 트랙과 노래 음성 트랙으로 분리하고, 각 트랙의 내용을 인식한다.