Core Concepts
CausalChaos! 데이터셋은 Tom & Jerry 만화 시리즈를 기반으로 하여 복잡한 인과 관계 체인과 동적인 상호작용을 포함하는 도전적인 비디오 질문 답변 과제를 제공한다.
Abstract
이 논문은 CausalChaos! 데이터셋을 소개한다. 이 데이터셋은 Tom & Jerry 만화 시리즈를 기반으로 하며, 다음과 같은 특징을 가지고 있다:
질문과 답변에 다층적 구조를 가지고 있어, 단순한 답변이 아닌 보다 심층적인 설명을 요구한다. 이를 통해 모델의 복잡한 인과 관계 추론 능력을 평가할 수 있다.
동적인 장면 전환과 복잡한 인과 관계 체인을 포함하고 있어, 모델이 장면 간 맥락을 연결하고 중간 원인을 파악해야 한다.
만화 애니메이션의 원리를 활용하여 명확하고 모호하지 않은 인과 관계를 표현하였다.
다양한 유형의 추론 능력(연역적, 귀납적, 공간적, 인과적, 비판적 사고, 감정적, 가설적, 시간적)을 요구한다.
이러한 특징들은 기존 데이터셋에 비해 CausalChaos!가 더욱 도전적이고 복잡한 인과 관계 추론 과제를 제공한다는 것을 보여준다. 실험 결과, 최신 비디오 질문 답변 모델들도 이 데이터셋에서 여전히 많은 개선의 여지가 있음을 확인하였다. 특히 인과 관계 모델링과 비전-언어 통합 모델링이 중요한 향후 연구 방향으로 제시되었다.
Stats
제리가 톰의 꼬리를 잡은 이유는 제리가 톰의 꼬리를 다른 주머니로 끌어당기려고 했기 때문이다.
제리는 톰이 자신의 꼬리를 잡아당겨 주머니 터널을 통과하게 만들려고 했다.
Quotes
"Jerry wanted to pull Tom's tail into another pocket."
"Jerry wanted to make Tom to grab his own tail and pull himself through the pocket tunnels."