Centrala begrepp
VideoAgent는 비디오의 시간적 이벤트 설명과 객체 추적 상태를 저장하는 구조화된 메모리를 구축하여, 장기적인 시간 관계를 효과적으로 파악할 수 있다. 이를 통해 다양한 비디오 이해 작업에서 우수한 성능을 달성한다.
Sammanfattning
이 논문은 비디오 이해 문제를 해결하기 위해 VideoAgent라는 메모리 기반 멀티모달 에이전트를 제안한다.
- VideoAgent는 비디오를 시간적 메모리와 객체 메모리로 구성된 구조화된 표현으로 변환한다.
- 시간적 메모리는 각 비디오 세그먼트의 이벤트 설명을 저장하고, 객체 메모리는 비디오에 등장하는 객체와 사람의 상태를 추적한다.
- 질문이 주어지면 VideoAgent는 질문을 여러 하위 작업으로 분해하고, 메모리에서 정보를 검색하여 상호작용적으로 답변을 생성한다.
- 실험 결과, VideoAgent는 EgoSchema, Ego4D NLQ, NExT-QA 등의 장기 비디오 이해 벤치마크에서 기존 최첨단 모델을 능가하는 성능을 보였다.
- 구조화된 메모리와 유연한 도구 사용 능력이 VideoAgent의 강점으로 나타났다.
Statistik
비디오 세그먼트당 평균 2초의 길이를 가진다.
객체 메모리에는 객체 ID, 객체 카테고리, 객체가 등장한 비디오 세그먼트 인덱스가 저장된다.
Citat
"VideoAgent는 비디오의 시간적 이벤트 설명과 객체 추적 상태를 저장하는 구조화된 메모리를 구축하여, 장기적인 시간 관계를 효과적으로 파악할 수 있다."
"실험 결과, VideoAgent는 EgoSchema, Ego4D NLQ, NExT-QA 등의 장기 비디오 이해 벤치마크에서 기존 최첨단 모델을 능가하는 성능을 보였다."