核心概念
반복적인 장면이 많은 비디오에서 각 클립을 구별하는 고유한 캡션을 생성하는 것은 비디오 검색의 정확도를 향상시키는 데 중요합니다.
要約
고유 비디오 캡션 생성: '또 다른 평범한 날' 연구 논문 요약
참고: 본문은 연구 논문의 일부 내용을 담고 있습니다.
본 연구는 일상생활이나 영화에서 흔히 볼 수 있는 반복적인 비디오 클립을 구별하는 독창적인 캡션을 생성하는 것을 목표로 합니다. 이는 기존의 비디오 캡셔닝 모델이 유사한 클립에 대해 동일한 캡션을 생성하여 텍스트 기반 검색의 효율성을 저해하는 문제점을 해결하고자 합니다.
본 논문에서는 '차별적 프롬프팅을 통한 캡션 생성 (CDP)'이라는 새로운 프레임워크를 제안합니다. CDP는 세 가지 핵심 아이디어를 기반으로 합니다.
차별적 프롬프트: 캡셔너가 각 클립을 구별하는 특징에 집중하도록 유도하는 프롬프트 세트를 사용합니다. 이러한 프롬프트는 유사한 클립들을 대조하여 선택되며, 단일 클립 캡셔너를 여러 클립에 맞게 조정하는 메커니즘을 제공합니다.
조합적 검색: 모든 프롬프트와 클립에 대한 조합적 검색을 통해 가장 독창적인 캡션 세트를 생성하는 프롬프트 조합을 찾습니다.
CDPNet: 검색 과정에서 가장 많은 계산을 요구하는 부분, 즉 모든 프롬프트를 사용하여 각 클립을 자동 회귀적으로 캡션하고 비디오/텍스트 임베딩 유사성을 계산하는 과정을 근사하는 네트워크입니다.