Conceitos essenciais
비디오와 오디오 데이터를 시간 정렬된 모달리티로 처리하고, 문맥 정보를 별도의 자기회귀 모델로 처리하여 효율적이고 확장 가능한 멀티모달 모델을 제안한다.
Resumo
이 논문은 멀티모달 학습의 주요 과제인 다양한 모달리티를 효과적으로 결합하는 방법을 제안한다. 비디오와 오디오는 텍스트에 비해 훨씬 높은 속도로 생성되며 대략적으로 시간 정렬되어 있지만, 텍스트 정보와는 동기화되어 있지 않다. 또한 비디오와 오디오 입력은 훨씬 더 큰 용량이며 비디오 길이에 따라 증가한다.
이 문제를 해결하기 위해 저자들은 멀티모달 모델링을 분리하여, 시간 정렬된 모달리티(비디오, 오디오)와 시간 정렬되지 않은 문맥 모달리티(텍스트)를 각각 자기회귀 모델로 처리한다. 시간 정렬된 모달리티의 경우 입력을 시간 단위로 분할하고 Combiner 메커니즘을 통해 오디오-비디오 정보를 효과적으로 결합한다. 이를 통해 512개의 입력 프레임을 처리할 수 있으면서도 모델 크기 증가 없이 확장 가능하다.
제안 모델은 다양한 멀티모달 벤치마크에서 최신 기술 수준을 뛰어넘는 성능을 보여준다. 미디어 입력의 높은 계산 요구사항을 효과적으로 해결하여 더 작은 모델로도 우수한 성능을 달성할 수 있다.
Estatísticas
비디오는 N개의 프레임으로 구성되며, 오디오는 M개의 타임스텝으로 구성된다.
텍스트는 P개의 토큰으로 구성된다.