Effizientes Erkennen und Lokalisieren von Objekten in der offenen Welt durch hyperboles Lernen mit synthetischen Bildunterschriften
Unser Ansatz nutzt synthetische Bildunterschriften, die von leistungsfähigen vortrainierten Sprach-Bild-Modellen generiert werden, um die Generalisierungsfähigkeit auf neuartige Konzepte in der offenen Welt zu verbessern. Um die Auswirkungen von Halluzinationen in den synthetischen Bildunterschriften zu mindern, führen wir einen neuartigen hyperbolen Ansatz zum Lernen von Bild-Sprache-Beziehungen ein, der eine hierarchische Struktur zwischen visuellen und Textembeddings erzwingt.