核心概念
본 연구는 실세계 비디오에서 복합적 시공간 추론을 향상시키기 위해 신경-상징적 프레임워크인 NS-VideoQA를 제안한다. NS-VideoQA는 비디오를 상징적 표현으로 변환하고 반복적인 추론을 수행하여 복합적 시공간 추론 능력을 향상시킨다.
摘要
본 논문은 실세계 비디오 질문 답변(VideoQA) 과제에서 복합적 시공간 추론 능력을 향상시키기 위한 신경-상징적 프레임워크인 NS-VideoQA를 제안한다.
- 신경 인지 단계:
- 장면 파서 네트워크(SPN)를 제안하여 비디오의 정적-동적 장면을 상징적 표현(SR)으로 변환한다.
- SPN은 사람, 객체, 관계, 행동 연대기를 구조화한다.
- 상징적 추론 단계:
- 상징적 추론 기계(SRM)를 제안하여 질문을 상위-하위 분해와 하향식 복합적 추론을 수행한다.
- SRM은 다형성 프로그램 실행기를 구축하여 SR에 대한 내부 일관성 있는 추론을 수행한다.
실험 결과, NS-VideoQA는 AGQA Decomp 벤치마크에서 기존 순수 신경망 모델보다 우수한 성능을 보였다. 특히 복합적 시공간 추론 능력, 내부 일관성, 단계별 추론 과정 분석 등에서 강점을 보였다.
統計資料
비디오에서 사람, 객체, 관계, 행동 연대기를 구조화하여 상징적 표현(SR)으로 변환한다.
상징적 추론 기계(SRM)는 질문을 상위-하위 분해하고 SR에 대한 하향식 복합적 추론을 수행한다.
SRM의 다형성 프로그램 실행기는 내부 일관성 있는 추론을 수행한다.
引述
"NS-VideoQA not only improves the compositional spatio-temporal reasoning in real-world VideoQA task, but also enables step-by-step error analysis by tracing the intermediate results."
"To address this challenge, we propose a neural-symbolic framework called Neural-Symbolic VideoQA (NS-VideoQA), specifically designed for real-world VideoQA tasks."