Core Concepts
FlexCap ist ein flexibles Bildunterschriften-Modell, das lokale Regionen in Bildern mit kontrollierbar detaillierten Beschreibungen generieren kann.
Abstract
FlexCap ist ein vielseitiges Modell, das in der Lage ist, räumlich kontrollierbare und semantisch reichhaltige Beschreibungen für beliebige Bildregionen zu generieren. Das Modell wurde entwickelt, um drei bisher getrennt betrachtete Aufgaben zu kombinieren: Bildbeschriftung, Objekterkennung und dichte Beschriftung.
Um FlexCap zu trainieren, wurde ein großer Datensatz mit Bild-Begrenzungsbox-Beschriftungs-Triplets erstellt, indem bestehende Bild-Text-Paare aus Webdaten und offene Objekterkennungsmodelle genutzt wurden. Dieser Datensatz ermöglicht es dem Modell, eine Vielfalt an visuellen Beschreibungen unterschiedlicher Länge zu lernen.
Die von FlexCap generierten lokalisierten und semantisch reichen Beschreibungen können genutzt werden, um Bilder und Videos mit Großsprachmodellen (LLMs) zu verbinden und so starke Leistungen bei Bildfragestellungen und dichten Beschriftungsaufgaben zu erzielen. Außerdem zeigt sich, dass der FlexCap-basierte Ansatz des "Lokalisieren, dann Beschreiben" effektiver ist als der "Beschreiben, dann Lokalisieren"-Ansatz anderer Modelle für offene Objekterkennung.
FlexCap zeichnet sich auch durch die Fähigkeit aus, durch Präfixsteuerung diverse visuelle Informationen zu extrahieren, was eine Vielzahl von Anwendungen ermöglicht, wie z.B. Bildkennzeichnung, Objektattributerkennung und visuelle Dialoge.
Stats
Das Flugzeug ist weiß.
Der Motor befindet sich am Flugzeug.
Der Schwanz des Flugzeugs ist sichtbar.
Auf der Seite des Flugzeugs steht "Singapore".
Der Flügel des Flugzeugs ist zu sehen.
Ein weiterer Motor befindet sich am Flugzeug.
Der Boden ist grau.
Ein weißes Auto befindet sich auf dem Rollfeld.
Quotes
"FlexCap kombiniert alle drei Aufgaben in ein einziges System, indem jede von ihnen als unterschiedliches Beschriftungsproblem formuliert wird - Bildbeschriftung impliziert die Verwendung von FlexCap zur Beschriftung des gesamten Bildes als eine große Begrenzungsbox, dichte Beschriftung kann durch Konditionierung auf einzelne Boxen durchgeführt werden und Objekterkennung kann durch Aufforderung des Modells zur Erzeugung kurzer Klassennamen als Beschriftungen erreicht werden."
"Um ein solches Modell trainieren zu können, benötigen wir einen Datensatz von Bildern, bei denen viele Boxen mit kurzen und langen Beschreibungen gekennzeichnet sind. Wir schlagen eine Methode vor, um Tripel von (i) Bild, (ii) einer vorgeschlagenen Region innerhalb des Bildes und (iii) der entsprechenden Beschriftung aus Bild-Text-Paardatensätzen zu generieren, indem wir offene Objekterkennungsdetektoren verwenden."