텍스트 기반 청각-영상 생성 작업은 오디오와 비디오 요소의 정확한 정렬을 요구하는 새로운 과제이다. TAVGBench는 이를 지원하기 위한 대규모 데이터셋과 평가 지표를 제공하며, TAVDiffusion은 이 과제에 대한 기초 모델을 제시한다.
The core message of this article is to introduce a new task called Text to Audible-Video Generation (TAVG), which requires generating synchronized audio and video content from text descriptions. To support this task, the authors propose a large-scale benchmark dataset called TAVGBench and a baseline model called TAVDiffusion that leverages latent diffusion to jointly generate audio and video.