최근 텍스트 기반 오디오(TTA) 생성에 대한 관심이 높아지고 있다. 대부분의 기존 방법들은 텍스트와 오디오 임베딩 간의 상관관계를 학습하는 잠재 확산 모델을 활용하지만, 생성된 오디오와 비디오 간의 원활한 동기화에는 한계가 있다. 이로 인해 명확한 청각-시각적 불일치가 발생한다.
이를 해결하기 위해 본 연구는 비디오와 동기화된 텍스트 기반 오디오 생성을 위한 새로운 벤치마크 T2AV-BENCH를 제안한다. 이 벤치마크는 시각적 정렬과 시간적 일관성을 평가하기 위한 3가지 새로운 지표를 포함한다.
또한 본 연구는 T2AV라는 간단하면서도 효과적인 비디오 정렬 TTA 생성 모델을 제안한다. T2AV는 기존 방법과 달리 시각 정렬 텍스트 임베딩을 조건으로 활용하여 잠재 확산 모델을 개선한다. 또한 시간적 다중 헤드 어텐션 트랜스포머를 사용하여 비디오 데이터의 시간적 미묘한 차이를 추출하고 이해한다. 이를 위해 Audio-Visual ControlNet을 도입하여 시간적 시각 표현을 텍스트 임베딩과 효과적으로 결합한다.
추가적으로 시각 정렬 텍스트 임베딩과 오디오 특징이 밀접하게 공명하도록 하는 대조 학습 목적함수를 도입한다. AudioCaps와 T2AV-BENCH에 대한 광범위한 평가를 통해 T2AV가 시각 정렬과 시간적 일관성 측면에서 새로운 표준을 수립한다는 것을 입증한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania