본 연구는 청각 신호와 시각 정보를 활용하여 주시 행동을 예측하는 새로운 모델을 제안한다. 이를 위해 공간적 및 시간적 상관관계를 별도로 모델링하고 대조 학습 기법을 적용하여 강력한 청각-시각 표현을 학습한다.