복잡한 소음 환경에서 목표 화자의 음성을 효과적으로 분리하고 인식하기 위해 단일 채널 음성 향상 모듈과 자동 음성 인식 모듈을 결합한 엔드-투-엔드 모델을 제안하였다. 이를 통해 단독 튜닝 대비 음성 인식 오류율을 26.4%에서 14.5%로 크게 개선할 수 있었다.