RGNet은 장시간 비디오(20-120분)에서 텍스트 쿼리에 해당하는 특정 순간을 검출하는 문제를 다룬다. 기존 방법들은 클립 검색과 그라운딩을 별도의 단계로 처리하였지만, 이는 클립 검색 단계의 세부적인 이벤트 이해 능력 부족으로 인해 성능이 저하되는 문제가 있었다.
RGNet은 이를 해결하기 위해 클립 검색과 그라운딩을 통합한 단일 네트워크 모델을 제안한다. 핵심 구성요소인 RG-Encoder는 공유 특징과 상호 최적화를 통해 두 단계를 통합한다. RG-Encoder는 희소 어텐션 메커니즘과 어텐션 손실 함수를 활용하여 클립과 프레임 수준의 세부적인 이벤트 이해를 모델링한다. 또한 장시간 비디오 환경을 모방하는 대조적 클립 샘플링 기법을 도입하여 학습 과정에서 실제 환경과의 격차를 줄였다.
RGNet은 MAD와 Ego4D 데이터셋에서 기존 최고 성능을 크게 개선하는 결과를 보였다. 예를 들어 Ego4D 데이터셋에서 이전 최고 방법 대비 9.7% 향상된 성능을 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tanveer Hann... at arxiv.org 03-25-2024
https://arxiv.org/pdf/2312.06729.pdfDeeper Inquiries