본 연구는 주시 예측을 위해 청각 신호와 시각 정보를 활용하는 새로운 모델을 제안한다. 주요 내용은 다음과 같다:
공간적 융합 모듈과 시간적 융합 모듈을 별도로 설계하여 청각 신호와 시각 정보의 상관관계를 효과적으로 모델링한다. 공간 융합 모듈은 각 프레임 내에서 청각 신호와 시각 특징의 상관관계를 학습하고, 시간 융합 모듈은 시간에 따른 청각-시각 상관관계와 주시 이동을 포착한다.
융합된 청각-시각 표현에 대한 대조 학습 기법을 적용하여 강력한 다중 모달 표현을 학습한다. 이는 기존 방식보다 효과적인 것으로 나타났다.
Ego4D와 Aria 데이터셋에서 실험을 수행하였으며, 제안 모델이 기존 최신 방법 대비 F1 점수로 각각 1.9%와 1.6% 향상된 성능을 보였다. 또한 청각 정보 활용이 주시 예측 성능을 2.5%와 2.4% 향상시켰다.
시각화를 통해 제안 모델이 청각-시각 상관관계를 효과적으로 학습했음을 확인할 수 있다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询