Core Concepts
TraveLER은 비디오를 따라 이동하며 질문에 대한 답변을 찾기 위해 키프레임에서 관련 정보를 대화형으로 수집하는 다중 LMM 에이전트 프레임워크이다.
Abstract
TraveLER은 비디오 질문 답변을 위한 새로운 다중 LMM 에이전트 프레임워크이다. 이 프레임워크는 다음과 같은 단계로 구성된다:
- 트래버스(Traverse) 단계: 에이전트가 질문에 답변하기 위한 계획을 수립한다.
- 로케이터(Locator) 단계: 에이전트가 계획에 따라 키프레임을 선택하고, 질문에 대한 답변을 찾기 위해 프레임에 대한 질문을 생성하고 답변을 추출한다.
- 평가자(Evaluator) 단계: 에이전트가 수집된 정보를 검토하고 질문에 답변할 수 있는지 평가한다. 충분한 정보가 없는 경우 새로운 계획을 수립한다.
이 프레임워크는 기존 방식의 한계를 극복하고자 한다. 기존 방식은 모든 프레임을 활용하거나 키프레임만 선택하는데, 이는 중요한 정보를 놓치거나 잘못된 프레임을 선택할 수 있다. TraveLER은 대화형 질문 답변을 통해 관련성 높은 정보를 수집하고, 필요한 경우 새로운 계획을 수립하여 반복적으로 정보를 수집한다.
실험 결과, TraveLER은 NExT-QA, STAR, Perception Test 등의 비디오 질문 답변 벤치마크에서 기존 방식을 능가하는 성능을 보였다.
Stats
비디오 질문 답변 벤치마크에서 TraveLER의 성능이 기존 방식을 능가한다.
NExT-QA에서 TraveLER의 평균 정확도는 68.2%로, LLoVi 모델(67.7%)보다 0.5% 높다.
STAR에서 TraveLER의 평균 정확도는 44.9%로, SeViLA 모델(44.6%)보다 2.7% 높다.
Perception Test에서 TraveLER의 정확도는 50.2%로, MC-ViT-L 모델(48.1%)보다 4.5% 높다.
Quotes
"TraveLER은 비디오를 따라 이동하며 키프레임에서 관련 정보를 대화형으로 수집하는 다중 LMM 에이전트 프레임워크이다."
"TraveLER은 기존 방식의 한계를 극복하고자 하며, 실험 결과 여러 비디오 질문 답변 벤치마크에서 우수한 성능을 보였다."