본 연구는 오디오-비주얼 동영상에서의 시간적 참조 대화(Temporal Referential Dialogue, TRD)를 다룬다. TRD는 사람들이 일상적으로 사용하는 음성과 제스처를 통해 특정 영역이나 객체를 참조하는 과정을 모방한다. 기존 연구는 정적 환경에서의 TRD를 다루었지만, 오디오-비주얼 미디어에서의 TRD 탐구는 제한적이었다.
이를 해결하기 위해 본 연구는 다음과 같은 기여를 한다:
PU-VALOR 데이터셋 제안: 기존 VALOR-32K 데이터셋의 고품질 캡션을 활용하여 정확한 시간적 경계 주석이 포함된 가짜 비정형 오디오-비주얼 동영상을 생성했다.
AVicuna 모델 제안: 오디오-비주얼 토큰 인터리버(AVTI)와 문맥-경계 정렬을 통해 오디오-비주얼 동영상의 시간적 동기화와 세부적인 이해를 달성했다.
A5-222K 데이터셋 구축: AudioSet, AudioCap, Auto-CAD 등의 기존 데이터셋을 통합하여 오디오-텍스트 정렬을 강화했다.
실험 결과, AVicuna는 오디오-비주얼 시간적 참조 대화 능력을 크게 향상시켰으며, 다양한 비디오 이해 벤치마크에서 최신 성과를 달성했다. 특히 오디오-비주얼 이벤트 밀집 위치 지정 작업에서 두드러진 성과를 보였다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yunlong Tang... : arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16276.pdfDaha Derin Sorular