이 논문은 비디오 그라운딩 작업에서 발생하는 주석 데이터의 희소성 문제를 해결하기 위해 보조 캡션을 활용하는 방법을 제안한다.
먼저, 저자들은 밀집 비디오 캡셔닝 모델을 사용하여 비디오에서 밀집 캡션을 생성하고, 이 중에서 신뢰할 수 있는 보조 캡션을 선별하는 Non-Auxiliary Caption Suppression (NACS) 알고리즘을 제안한다.
다음으로, 저자들은 Caption Guided Attention (CGA)를 통해 보조 캡션의 시간적 정보와 쿼리 문장 간의 의미적 관계를 시각 표현에 융합하여 타겟 모멘트에 대한 사전 지식을 얻는다.
또한 Asymmetric Cross-modal Contrastive Learning (ACCL)을 제안하여 보조 캡션과 실제 정답 간의 차이를 효과적으로 활용하여 더 강력한 교차 모달 표현을 학습한다.
실험 결과, 제안된 ACNet 모델이 ActivityNet Captions, TACoS, ActivityNet-CG 데이터셋에서 기존 최신 모델들을 크게 능가하는 성능을 보였다. 이는 보조 캡션 활용이 비디오 그라운딩 문제에 매우 효과적임을 입증한다.
To Another Language
from source content
arxiv.org
Djupare frågor