멀티모달 에고센트릭 비디오에서 누락된 모달리티가 미치는 영향을 연구하고, 이를 해결하기 위한 혁신적인 접근법을 제안한다.
시간 간격을 활용하여 장기 비디오에서 오디오와 비주얼 이벤트를 효과적으로 인식하는 모델 제안