이 논문은 CausalChaos! 데이터셋을 소개한다. 이 데이터셋은 Tom & Jerry 만화 시리즈를 기반으로 하며, 다음과 같은 특징을 가지고 있다:
질문과 답변에 다층적 구조를 가지고 있어, 단순한 답변이 아닌 보다 심층적인 설명을 요구한다. 이를 통해 모델의 복잡한 인과 관계 추론 능력을 평가할 수 있다.
동적인 장면 전환과 복잡한 인과 관계 체인을 포함하고 있어, 모델이 장면 간 맥락을 연결하고 중간 원인을 파악해야 한다.
만화 애니메이션의 원리를 활용하여 명확하고 모호하지 않은 인과 관계를 표현하였다.
다양한 유형의 추론 능력(연역적, 귀납적, 공간적, 인과적, 비판적 사고, 감정적, 가설적, 시간적)을 요구한다.
이러한 특징들은 기존 데이터셋에 비해 CausalChaos!가 더욱 도전적이고 복잡한 인과 관계 추론 과제를 제공한다는 것을 보여준다. 실험 결과, 최신 비디오 질문 답변 모델들도 이 데이터셋에서 여전히 많은 개선의 여지가 있음을 확인하였다. 특히 인과 관계 모델링과 비전-언어 통합 모델링이 중요한 향후 연구 방향으로 제시되었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ting En Lam,... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01299.pdfDeeper Inquiries