Der Artikel befasst sich mit dem Aufgabenfeld der offenen Welt-Objekterkennung, bei der Objekte sowohl anhand von Klassenlabeln als auch durch Freitextbeschreibungen erkannt und lokalisiert werden sollen. Um die Generalisierungsfähigkeit auf neuartige Konzepte zu verbessern, schlagen die Autoren vor, synthetische Bildunterschriften zu verwenden, die von leistungsfähigen vortrainierten Sprach-Bild-Modellen generiert werden.
Um die Auswirkungen von Halluzinationen in den synthetischen Bildunterschriften zu mindern, führen die Autoren einen neuartigen hyperbolen Ansatz zum Lernen von Bild-Sprache-Beziehungen ein. Dieser erzwingt eine hierarchische Struktur zwischen visuellen Objektembeddings und Textembeddings der Bildunterschriften, bei der die Bildunterschrift das Objekt "impliziert".
Die Autoren evaluieren ihren Ansatz, den sie "HyperLearner" nennen, auf einer Reihe von Benchmark-Datensätzen für Objekterkennung und Lokalisierung in der offenen Welt. Die Ergebnisse zeigen, dass HyperLearner den Stand der Technik übertrifft, insbesondere bei der Erkennung seltener und neuartiger Objekte.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Fanjie Kong,... a las arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05016.pdfConsultas más profundas