Core Concepts
Durch die Modellierung der strukturellen Ähnlichkeit zwischen visuellen und textuellen Entitäten können Beziehungen zwischen Objekten in Bildern und Bildunterschriften effektiv erfasst werden, um die nullbasierte Referenzausdruck-Erfassung zu verbessern.
Abstract
Der Artikel präsentiert einen neuartigen Ansatz zur nullbasierten Referenzausdruck-Erfassung, der die strukturelle Ähnlichkeit zwischen Bildern und Bildunterschriften nutzt.
Zunächst werden sowohl Bilder als auch Bildunterschriften in Tripel der Form (Subjekt, Prädikat, Objekt) zerlegt, um die Beziehungen zwischen Entitäten zu erfassen. Anschließend wird die Ähnlichkeit zwischen den visuellen und textuellen Tripeln berechnet, um die Zuordnung von Referenzausdrücken in Bildunterschriften zu Bildregionen zu verbessern.
Um die Fähigkeit von Vision-Sprache-Ausrichtungsmodellen (VLA-Modelle) zum Verständnis von Beziehungen zu verbessern, wird ein Verfahren vorgestellt, bei dem diese Modelle auf einer Sammlung von Datensätzen mit reichhaltigen Beziehungsinformationen feinabgestimmt werden.
Die Experimente zeigen, dass der vorgeschlagene Ansatz die Leistung der nullbasierten Referenzausdruck-Erfassung auf gängigen Benchmarks deutlich verbessert und auch auf dem anspruchsvolleren Who's Waldo-Datensatz vielversprechende Ergebnisse erzielt.
Stats
Die Referenzausdrücke in RefCOCO/+/g enthalten durchschnittlich 1,6 Nomen und 3,6 Wörter.
Die Bildunterschriften im Who's Waldo-Datensatz enthalten etwa 30 Wörter.
Quotes
Keine relevanten Zitate identifiziert.