시각 사전 훈련과 교차 모달 퓨전을 통해 음성-시각 연설 인식을 향상시키는 새로운 기법 소개
드롭아웃 기술이 오디오 모달리티에 유발하는 과도한 모달리티 편향이 비디오 프레임 누락에 대한 음성-시각 연설 인식 시스템의 강건성을 향상시키는 데 중요하다.