Neuronales-symbolisches VideoQA: Lernen von kompositioneller räumlich-zeitlicher Schlussfolgerung für die Beantwortung von Videofragen in der realen Welt
Das vorgeschlagene NS-VideoQA-Modell verbessert die Fähigkeit zur kompositionellen räumlich-zeitlichen Schlussfolgerung in Echtzeit-Videos, indem es die Videos in symbolische Darstellungen umwandelt und iteratives Schlussfolgern durchführt.