Core Concepts
Unser Ansatz führt komplexe Video-Verständnisaufgaben auf eine Reihe von ausführbaren Teilaufgaben zurück, die von Sprachmodellen generiert und von spezialisierten Computer-Vision-Modellen gelöst werden. Durch die Selbstverfeinerung der Beispiele für den Kontext-Lernen verbessern wir die Genauigkeit und Robustheit der generierten Programme.
Abstract
Die Studie präsentiert einen Video-Verständnis- und Reasoning-Rahmen (VURF), der auf der Reasoning-Fähigkeit von Large Language Models (LLMs) basiert. Der Ansatz zerlegt komplexe Video-Verständnisaufgaben in eine Reihe von ausführbaren Teilaufgaben, die von spezialisierten Computer-Vision-Modellen gelöst werden.
Um die Genauigkeit und Robustheit der Programme zu verbessern, werden zwei wichtige Strategien implementiert:
Ein Feedback-Generierungs-Ansatz, der von GPT-3.5 angetrieben wird, um Fehler in Programmen mit nicht unterstützten Funktionen zu korrigieren.
Ein iteratives Verfahren zur Verbesserung der Qualität der Beispiele im Kontext durch Ausrichtung der anfänglichen Ausgaben an den Ausgaben, die generiert worden wären, wenn das LLM nicht an die Struktur der Beispiele im Kontext gebunden gewesen wäre.
Die Ergebnisse auf mehreren Video-spezifischen Aufgaben, wie Visual-QA, Video-Anticipation, Pose-Schätzung und Multi-Video-QA, zeigen die Wirksamkeit dieser Verbesserungen bei der Steigerung der Leistung von Visual-Programming-Ansätzen für Video-Aufgaben.
Stats
Die Studie verwendet keine spezifischen Metriken oder Zahlen, sondern konzentriert sich auf die Beschreibung des vorgeschlagenen Frameworks und dessen Evaluierung auf verschiedenen Video-Verständnisaufgaben.
Quotes
Keine relevanten Zitate identifiziert.