核心概念
Die einheitliche visuelle Darstellung von Bildern und Videos ermöglicht Großsprachmodellen ein effizientes Verständnis beider Medien mit einer begrenzten Anzahl von visuellen Token.
摘要
Der Artikel stellt Chat-UniVi, ein einheitliches Sprach-Bild-Modell, vor, das in der Lage ist, sowohl Bilder als auch Videos zu verstehen und in Konversationen einzubinden.
Kernpunkte:
Verwendung einer Sammlung dynamischer visueller Token zur einheitlichen Darstellung von Bildern und Videos
Schrittweises Zusammenfassen ähnlicher visueller Token mittels DPC-KNN-Clustering, um die Anzahl der Token zu reduzieren
Temporales Zusammenfassen der Videotoken innerhalb von Ereignissen, um die zeitliche Dynamik zu erfassen
Mehrstufige Repräsentation, die sowohl semantische Konzepte als auch visuelle Details abbildet
Gemeinsames Training auf einem gemischten Datensatz von Bildern und Videos, ohne Anpassungen für einzelne Medien
Die einheitliche Darstellung ermöglicht es Chat-UniVi, sowohl Bild- als auch Videoaufgaben ohne Modifikationen zu bewältigen und dabei die Leistung spezialisierter Methoden zu übertreffen.
統計資料
Die Anzahl der visuellen Token wird durch das schrittweise Zusammenfassen von 224 auf 112 reduziert.
Längere Videos werden mit mehr visuellen Token dargestellt als kürzere Videos.
引述
"Chat-UniVi uniformly represents images and videos using a collection of dynamic visual tokens, enabling it to concurrently capture the spatial details of images and the comprehensive temporal relationship of videos."
"Notably, Chat-UniVi is trained on a mixed dataset containing both images and videos, allowing direct application to tasks involving both mediums without requiring any modifications."