Der Artikel befasst sich mit dem Aufgabenfeld der offenen Welt-Objekterkennung, bei der Objekte sowohl anhand von Klassenlabeln als auch durch Freitextbeschreibungen erkannt und lokalisiert werden sollen. Um die Generalisierungsfähigkeit auf neuartige Konzepte zu verbessern, schlagen die Autoren vor, synthetische Bildunterschriften zu verwenden, die von leistungsfähigen vortrainierten Sprach-Bild-Modellen generiert werden.
Um die Auswirkungen von Halluzinationen in den synthetischen Bildunterschriften zu mindern, führen die Autoren einen neuartigen hyperbolen Ansatz zum Lernen von Bild-Sprache-Beziehungen ein. Dieser erzwingt eine hierarchische Struktur zwischen visuellen Objektembeddings und Textembeddings der Bildunterschriften, bei der die Bildunterschrift das Objekt "impliziert".
Die Autoren evaluieren ihren Ansatz, den sie "HyperLearner" nennen, auf einer Reihe von Benchmark-Datensätzen für Objekterkennung und Lokalisierung in der offenen Welt. Die Ergebnisse zeigen, dass HyperLearner den Stand der Technik übertrifft, insbesondere bei der Erkennung seltener und neuartiger Objekte.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Fanjie Kong,... ที่ arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05016.pdfสอบถามเพิ่มเติม