Die Studie präsentiert einen neuartigen Ansatz zur robusten Szenengraphgenerierung (SGG) namens HiKER-SGG. Kernidee ist die Verwendung einer hierarchischen Wissensrepräsentation, die es dem Modell ermöglicht, Objekte und Beziehungen in Bildern schrittweise von der groben zur feinen Ebene zu klassifizieren.
Zunächst wird ein Grundszenengraph aus einem vortrainierten Objektdetektor erstellt. Dann wird eine hierarchische Wissensstruktur aufgebaut, die Superklassen und Subklassen für Objekte und Beziehungen enthält. Über Brückenverbindungen zwischen Szenengraph und Wissensgraph kann das Modell die Vorhersagen iterativ verfeinern und robuster gegen Bildverzerrungen machen.
Zusätzlich wird ein neuer Benchmark "Corrupted Visual Genome (VG-C)" eingeführt, der 20 verschiedene Bildverzerrungen wie Nebel, Regen oder Sonneneinstrahlung enthält. Experimente zeigen, dass HiKER-SGG nicht nur auf verzerrten Bildern deutlich bessere Ergebnisse erzielt als der Stand der Technik, sondern auch auf unverfälschten Bildern konkurrenzfähig ist.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы