核心概念
신경망 기반 인지와 시간 논리 기반 추론을 결합하여 장기 시간 비디오에서 복잡한 장면을 효과적으로 식별할 수 있다.
摘要
이 연구는 비디오 데이터 증가에 따른 효율적인 비디오 검색 도구 개발의 필요성을 제기한다. 기존 최신 비디오-언어 모델들은 단기 의미 이해에는 뛰어나지만 장기 시간 추론에는 한계가 있다. 이에 저자들은 신경망 기반 인지와 시간 논리 기반 추론을 결합한 새로운 접근법을 제안한다.
구체적으로 다음과 같은 과정을 거친다:
- 신경망 모델의 신뢰도를 보정하여 프레임 내 관련 명제를 정확히 탐지한다.
- 프레임 검증 과정을 통해 관련 프레임만을 선별한다.
- 선별된 프레임을 바탕으로 확률적 오토마타를 동적으로 구축한다.
- 구축된 오토마타가 주어진 시간 논리 명세를 만족하는지 검증한다.
이를 통해 장기 시간 비디오에서 복잡한 장면을 효과적으로 식별할 수 있다. 실험 결과, 제안 방법은 기존 비디오-언어 모델 대비 9-15% 향상된 성능을 보였다.
統計資料
매 분 YouTube에 500시간의 비디오가 업로드된다.
자율주행 기업 Waymo는 매일 10-100TB의 데이터를 생성한다.
전 세계 보안 카메라는 매일 약 500PB의 데이터를 기록한다.
引述
"Find me all scenes where event A happened, event B did not occur, and event C occurs hours later"
"Identify all frames depicting a car accident"
"Locate scenes that show a child playing and dog barking until an adult appears"