본 연구는 실세계 비디오에서 복합적 시공간 추론을 향상시키기 위해 신경-상징적 프레임워크인 NS-VideoQA를 제안한다. NS-VideoQA는 비디오를 상징적 표현으로 변환하고 반복적인 추론을 수행하여 복합적 시공간 추론 능력을 향상시킨다.
현재 강력한 언어 모델을 기반으로 한 비디오 질문 답변 모델은 시각적 질문에 대한 답변 성능이 우수하지만, 관련 시각 정보와의 강한 연관성이 부족하고 언어 단서와 관련 없는 시각 맥락에 크게 의존하고 있다. 이는 모델의 해석 가능성과 신뢰성 향상을 위한 노력이 필요함을 시사한다.
CausalChaos! 데이터셋은 Tom & Jerry 만화 시리즈를 기반으로 하여 복잡한 인과 관계 체인과 동적인 상호작용을 포함하는 도전적인 비디오 질문 답변 과제를 제공한다.
이 연구는 비디오 질문 답변 문제에서 불충분한 레이블 문제를 해결하기 위해 순위 증류 프레임워크 RADI를 제안합니다. RADI는 불완전한 레이블로 훈련된 교사 모델의 순위 정보를 활용하여 학생 모델의 성능을 향상시킵니다. 또한 순위 정보의 편향성을 극복하기 위해 적응형 쌍대 순위 증류와 부분 리스트 순위 증류 방법을 제안합니다.
이 연구는 비디오 질문 답변 문제에서 불충분한 레이블 문제를 해결하기 위해 순위 증류 프레임워크 RADI를 제안한다. RADI는 불완전한 레이블로 학습된 교사 모델의 답변 순위를 활용하여 학생 모델의 성능을 향상시킨다.
본 연구는 매개변수 효율적인 지속적인 비디오 질문 답변 학습 방법을 제안한다. 제안된 DAM 방법은 동적 어댑터 병합을 통해 (i) 재앙적 망각 완화, (ii) 지속적으로 도착하는 데이터셋에 대한 효율적인 적응, (iii) 알 수 없는 데이터셋 처리, (iv) 유사한 데이터셋 도메인 간 지식 공유를 가능하게 한다.