이 연구는 비디오 데이터 증가에 따른 효율적인 비디오 검색 도구 개발의 필요성을 제기한다. 기존 최신 비디오-언어 모델들은 단기 의미 이해에는 뛰어나지만 장기 시간 추론에는 한계가 있다. 이에 저자들은 신경망 기반 인지와 시간 논리 기반 추론을 결합한 새로운 접근법을 제안한다.
구체적으로 다음과 같은 과정을 거친다:
이를 통해 장기 시간 비디오에서 복잡한 장면을 효과적으로 식별할 수 있다. 실험 결과, 제안 방법은 기존 비디오-언어 모델 대비 9-15% 향상된 성능을 보였다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Minkyu Choi,... : arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11021.pdfDaha Derin Sorular