다채널 입력과 다채널 출력을 지원하는 모델 아키텍처를 사용하여 실제 다채널 녹음에 대한 비지도 학습을 통해 음성 분리 성능을 향상시킬 수 있다.
RTFS-Net은 시간과 주파수 차원을 독립적으로 모델링하여 계산 복잡도를 크게 낮추면서도 우수한 분리 성능을 달성하는 새로운 TF-domain 기반 음성-영상 분리 방법이다.