Der CausalChaos!-Datensatz wurde entwickelt, um die Fähigkeiten von Videofragestellungsmodellen zur kausalen Begründung zu testen und voranzubringen. Er basiert auf der ikonischen "Tom und Jerry"-Zeichentrickserie und enthält sorgfältig konzipierte Fragen mit mehrstufigen Antworten, die auf längere kausale Ketten abzielen, die über verschiedene Szenen hinweg verteilt sind.
Die Videoclips zeichnen sich durch häufige Szenenwechsel aus, was die Modelle herausfordert, mehrere Ereignisse miteinander zu verknüpfen und Zwischenursachen zu identifizieren, um die "Warum"-Fragen zu beantworten. Obwohl die kausalen Ketten komplex und lang sind, sind sie eindeutig abgegrenzt und durch Prinzipien der Animation klar kommuniziert, was den Modellen ermöglicht, sich auf die Entschlüsselung der kausalen Beziehungen zu konzentrieren.
Der Datensatz erfordert ein breites Spektrum an Denkfähigkeiten, darunter deduktives, räumliches, emotionales Schlussfolgern und mehr. Die Evaluierung von Spitzenmodellen zeigt, dass sie oft nur auf Teilbeweise setzen und keine echte kausale Begründung betreiben, sondern stattdessen Abkürzungen wie Objekt-/Aktions-Substantiv-/Verb-Abgleich nutzen. Dies deutet darauf hin, dass explizitere Modellierung kausaler Beziehungen und die gemeinsame Modellierung von Vision und Sprache wichtige nächste Schritte sind.
Insgesamt bietet der CausalChaos!-Datensatz Herausforderungen, die sich über die gesamte Videofragestellung-Pipeline erstrecken, von der Entschlüsselung komplexer Videos bis hin zur Verarbeitung komplexer Fragen und der Unterscheidung zwischen nuancierten Antworten, was die Forschung in vielen Bereichen wie Videoverarbeitung, kausale Begründung, Sprachmodellierung und gemeinsame Modellierung anregt.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Ting En Lam,... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01299.pdfสอบถามเพิ่มเติม