Główne pojęcia
본 논문은 비디오 질문 답변을 위한 분해된 다단계 모듈식 추론 프레임워크를 제안한다. 기존 모듈식 접근법은 단일 계획 단계에서 시각적 내용과 연결되지 않은 한계가 있었다. 이를 해결하기 위해 본 논문에서는 이벤트 파싱, 그라운딩, 추론의 3단계로 구성된 다단계 시스템을 제안한다. 이를 통해 해석 가능한 중간 출력을 생성하면서도 기존 접근법을 능가하는 성능을 달성한다.
Streszczenie
본 논문은 비디오 질문 답변(VideoQA) 문제를 해결하기 위한 새로운 모듈식 추론 프레임워크 MoReVQA를 제안한다. 기존 접근법은 단일 단계의 계획 방식을 사용하여 시각적 내용과 연결되지 않는 한계가 있었다. 이를 해결하기 위해 MoReVQA는 다음 3단계로 구성된다:
- 이벤트 파싱 단계: 질문에서 관련 이벤트와 속성을 파악한다.
- 그라운딩 단계: 파악된 이벤트와 관련된 비디오 프레임을 식별한다.
- 추론 단계: 그라운딩된 프레임과 전체 비디오 맥락을 활용하여 최종 답변을 생성한다.
각 단계는 대형 언어 모델(LLM)을 활용하여 해석 가능한 중간 출력을 생성한다. 또한 외부 메모리를 통해 단계 간 정보를 공유하여 보다 효과적인 추론이 가능하다. 실험 결과, MoReVQA는 기존 단일 단계 모듈식 접근법을 능가하는 성능을 보였으며, 4개의 표준 VideoQA 벤치마크에서 최신 수준의 결과를 달성했다.
Statystyki
비디오 평균 길이는 43초이다.
비디오 평균 프레임 수는 180개이다.
Cytaty
"기존 모듈식 접근법은 단일 계획 단계에서 시각적 내용과 연결되지 않은 한계가 있었다."
"본 논문에서는 이벤트 파싱, 그라운딩, 추론의 3단계로 구성된 다단계 시스템을 제안한다."
"각 단계는 대형 언어 모델(LLM)을 활용하여 해석 가능한 중간 출력을 생성한다."