본 연구는 청각 및 시각 정보를 효과적으로 융합하여 음성 분리 성능을 향상시키는 새로운 신경망 모델 CTCNet을 제안한다. CTCNet은 청각 및 시각 피질 영역과 청각-시각 통합 영역인 시상의 상호작용을 모방하여 설계되었으며, 기존 방법들을 크게 능가하는 성능을 보였다.
본 연구는 청각 신호와 시각 정보를 활용하여 주시 행동을 예측하는 새로운 모델을 제안한다. 이를 위해 공간적 및 시간적 상관관계를 별도로 모델링하고 대조 학습 기법을 적용하여 강력한 청각-시각 표현을 학습한다.