Kernkonzepte
Integration von LLMs zur Verbesserung von Momentenabruf und Highlight-Erkennung.
Zusammenfassung
I. Einleitung
Momentenabruf (MR) und Highlight-Erkennung (HD) identifizieren relevante Momente und Highlights in Videos basierend auf natürlichsprachlichen Abfragen.
Große Sprachmodelle (LLMs) werden in Computer Vision-Aufgaben integriert.
II. Methode
Zwei-Stufen-Modell mit LLMs und Transformer-Encoder-Decoder.
Generierung von Bildbeschreibungen und Abfrage-Umschreibungen.
III. Experimente
Evaluation auf dem QVHighlights-Datensatz.
GPTSee übertrifft bestehende Modelle in MR&HD-Aufgaben.
IV. Schlussfolgerung
GPTSee verbessert die Effektivität von Momentenabruf und Highlight-Erkennung durch innovative Ansätze.
Statistiken
"ExCL: Extractive Clip Localization Using Natural Language Descriptions," in NAACL, 2019.
"Temporal Sentence Grounding in Videos: A Survey and Future Directions," Oct. 2022, arXiv:2201.08071 [cs] version: 2.
"UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection," in CVPR, 2022, pp. 3042–3051.
Zitate
"Momentenabruf (MR) und Highlight-Erkennung (HD) identifizieren relevante Momente und Highlights in Videos basierend auf natürlichsprachlichen Abfragen."
"GPTSee übertrifft bestehende Modelle in MR&HD-Aufgaben."