이 논문은 멀티모달 학습의 주요 과제인 다양한 모달리티를 효과적으로 결합하는 방법을 제안한다. 비디오와 오디오는 텍스트에 비해 훨씬 높은 속도로 생성되며 대략적으로 시간 정렬되어 있지만, 텍스트 정보와는 동기화되어 있지 않다. 또한 비디오와 오디오 입력은 훨씬 더 큰 용량이며 비디오 길이에 따라 증가한다.
이 문제를 해결하기 위해 저자들은 멀티모달 모델링을 분리하여, 시간 정렬된 모달리티(비디오, 오디오)와 시간 정렬되지 않은 문맥 모달리티(텍스트)를 각각 자기회귀 모델로 처리한다. 시간 정렬된 모달리티의 경우 입력을 시간 단위로 분할하고 Combiner 메커니즘을 통해 오디오-비디오 정보를 효과적으로 결합한다. 이를 통해 512개의 입력 프레임을 처리할 수 있으면서도 모델 크기 증가 없이 확장 가능하다.
제안 모델은 다양한 멀티모달 벤치마크에서 최신 기술 수준을 뛰어넘는 성능을 보여준다. 미디어 입력의 높은 계산 요구사항을 효과적으로 해결하여 더 작은 모델로도 우수한 성능을 달성할 수 있다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询