Core Concepts
Der CausalChaos!-Datensatz bietet eine Reihe von anspruchsvollen Fragen mit mehrstufigen Antworten, die ein breites Spektrum an Denkfähigkeiten von Videofragestellungsmodellen erfordern, um komplexe kausale Beziehungen in dynamischen visuellen Szenen zu entschlüsseln.
Abstract
Der CausalChaos!-Datensatz wurde entwickelt, um die Fähigkeiten von Videofragestellungsmodellen zur kausalen Begründung zu testen und voranzubringen. Er basiert auf der ikonischen "Tom und Jerry"-Zeichentrickserie und enthält sorgfältig konzipierte Fragen mit mehrstufigen Antworten, die auf längere kausale Ketten abzielen, die über verschiedene Szenen hinweg verteilt sind.
Die Videoclips zeichnen sich durch häufige Szenenwechsel aus, was die Modelle herausfordert, mehrere Ereignisse miteinander zu verknüpfen und Zwischenursachen zu identifizieren, um die "Warum"-Fragen zu beantworten. Obwohl die kausalen Ketten komplex und lang sind, sind sie eindeutig abgegrenzt und durch Prinzipien der Animation klar kommuniziert, was den Modellen ermöglicht, sich auf die Entschlüsselung der kausalen Beziehungen zu konzentrieren.
Der Datensatz erfordert ein breites Spektrum an Denkfähigkeiten, darunter deduktives, räumliches, emotionales Schlussfolgern und mehr. Die Evaluierung von Spitzenmodellen zeigt, dass sie oft nur auf Teilbeweise setzen und keine echte kausale Begründung betreiben, sondern stattdessen Abkürzungen wie Objekt-/Aktions-Substantiv-/Verb-Abgleich nutzen. Dies deutet darauf hin, dass explizitere Modellierung kausaler Beziehungen und die gemeinsame Modellierung von Vision und Sprache wichtige nächste Schritte sind.
Insgesamt bietet der CausalChaos!-Datensatz Herausforderungen, die sich über die gesamte Videofragestellung-Pipeline erstrecken, von der Entschlüsselung komplexer Videos bis hin zur Verarbeitung komplexer Fragen und der Unterscheidung zwischen nuancierten Antworten, was die Forschung in vielen Bereichen wie Videoverarbeitung, kausale Begründung, Sprachmodellierung und gemeinsame Modellierung anregt.
Stats
Die durchschnittliche Länge der kausalen Ketten in unserem Datensatz beträgt 2,7, während sie in anderen kausalen Videofragestellungsdatensätzen wie NextQA, CausalVidQA und IntentQA nur 1 beträgt.
Quotes
"Jerry wollte, dass Tom seinen eigenen Schwanz in die Taschentunnel zieht."
"Jerry fand es lustig, dass der Seehund dem Tom den Fisch gestohlen hat."
"Jerry lachte darüber, dass Tom die Treppe hinuntergefallen und in den Brunnen gefallen ist."