Core Concepts
텍스트 내용이 비디오 내용을 충분히 설명하지 못하는 문제를 해결하기 위해 텍스트 임베딩을 유연하고 강건한 형태의 "텍스트 질량"으로 모델링하여 텍스트-비디오 검색 성능을 향상시킴
Abstract
이 연구는 텍스트-비디오 검색 문제에 주목하여, 텍스트 임베딩이 비디오 내용을 충분히 설명하지 못하는 문제를 해결하고자 하였다. 기존 방식은 텍스트와 비디오를 단일 포인트로 임베딩하여 유사도를 계산하였지만, 이는 텍스트의 제한적인 의미 표현력으로 인해 비디오 내용을 충분히 반영하지 못하는 한계가 있었다.
이에 본 연구에서는 텍스트를 "텍스트 질량"이라는 유연하고 강건한 형태의 임베딩으로 모델링하였다. 구체적으로:
유사도 인식 반경 모듈을 도입하여 텍스트 질량의 크기를 텍스트-비디오 쌍에 따라 적응적으로 조절
지지 텍스트 벡터를 활용하여 텍스트 질량의 위치와 크기를 효과적으로 제어
추론 과정에서 텍스트 질량 내 다수의 후보 중 가장 유사한 것을 선택하여 활용
이를 통해 관련 텍스트-비디오 쌍은 더 가깝게, 비관련 쌍은 더 멀리 배치되도록 하여 검색 성능을 크게 향상시켰다. 실험 결과 다양한 벤치마크 데이터셋에서 기존 대비 3~6.3%의 성능 향상을 달성하였다.
Stats
비디오 내용을 충분히 설명하지 못하는 텍스트 임베딩으로 인해 텍스트-비디오 정렬이 어려워짐
텍스트 질량 모델링을 통해 텍스트-비디오 쌍의 유사도를 효과적으로 조절할 수 있음
Quotes
"텍스트 내용이 일반적으로 짧고 간단하여 비디오의 중복 의미를 완전히 설명하기 어려워, 단일 텍스트 임베딩으로는 비디오 임베딩을 포착하고 검색을 강화하기 어려움"
"텍스트 질량은 유연하고 강건한 의미 범위를 가져 비디오 임베딩을 더 잘 포착할 수 있음"