핵심 개념
비디오 클립에는 캡션보다 더 다양한 내용이 포함되어 있어, 이러한 비대칭적인 비디오-텍스트 쌍을 정렬하는 모델은 많은 거짓 긍정 결과를 검색할 위험이 높다. 이 논문에서는 프로바빌리스틱 토큰 집계(ProTA)를 제안하여 이러한 비대칭적인 크로스모달 상호작용을 처리한다.
초록
이 논문은 텍스트-비디오 검색을 위한 프로바빌리스틱 토큰 집계(ProTA) 방법을 제안한다.
ProTA는 두 가지 주요 기여점을 가진다:
이중 부분 관련 집계(Dual Partial-related Aggregation, DPA): 저차원 및 고차원 공간에서 토큰 표현을 분리하고 재집계하여 부분적으로 관련된 내용을 효과적으로 처리한다. 저차원 집계는 각 토큰에 다른 주의를 기울이고, 고차원 집계는 다중 RBF 커널을 사용하여 모달리티 내부 및 모달리티 간 유사성을 포착한다.
토큰 기반 프로바빌리스틱 정렬(Token-based Probabilistic Alignment, TPA): 토큰 표현을 확률 분포로 모델링하고 음의 2-Wasserstein 거리를 사용하여 토큰 간 유사성을 계산함으로써 표현의 다양성을 유지한다. 또한 적응형 대조 손실을 도입하여 긍정 쌍을 더 가깝게 끌어당기고 부정 쌍 간 거리를 더 멀리 떨어뜨린다.
이러한 두 가지 핵심 기여를 통해 ProTA는 MSR-VTT(50.9%), LSMDC(25.8%), DiDeMo(47.2%)에서 상당한 성능 향상을 달성했다.
통계
비디오 클립에는 캡션보다 더 다양한 내용이 포함되어 있다.
하나의 캡션으로 여러 유사한 의미의 비디오를 설명할 수 있어 많은 거짓 긍정 결과가 발생할 수 있다.
인용구
"비디오 클립에는 캡션보다 더 다양한 내용이 포함되어 있어, 이러한 비대칭적인 비디오-텍스트 쌍을 정렬하는 모델은 많은 거짓 긍정 결과를 검색할 위험이 높다."
"이 논문에서는 프로바빌리스틱 토큰 집계(ProTA)를 제안하여 이러한 비대칭적인 크로스모달 상호작용을 처리한다."