제안된 모델은 사전 학습된 화자 분리 모듈의 출력을 활용하여 다화자 음성 인식과 대상 화자 음성 인식을 모두 수행할 수 있는 종단 간 프레임워크를 제공한다. 메타-캣(Meta-Cat) 기법을 통해 화자 정보를 음성 인식 임베딩에 효과적으로 주입하여 복잡한 화자 필터링 메커니즘 없이도 강력한 다화자 음성 인식 성능을 달성한다.