핵심 개념
HiKER-SGG nutzt eine hierarchische Wissensrepräsentation, um Szenen auch unter widrigen Bedingungen wie Wetterverschlechterungen oder Bildstörungen präzise zu analysieren und Szenengraphen zu erstellen.
초록
Die Studie präsentiert einen neuartigen Ansatz zur robusten Szenengraphgenerierung (SGG) namens HiKER-SGG. Kernidee ist die Verwendung einer hierarchischen Wissensrepräsentation, die es dem Modell ermöglicht, Objekte und Beziehungen in Bildern schrittweise von der groben zur feinen Ebene zu klassifizieren.
Zunächst wird ein Grundszenengraph aus einem vortrainierten Objektdetektor erstellt. Dann wird eine hierarchische Wissensstruktur aufgebaut, die Superklassen und Subklassen für Objekte und Beziehungen enthält. Über Brückenverbindungen zwischen Szenengraph und Wissensgraph kann das Modell die Vorhersagen iterativ verfeinern und robuster gegen Bildverzerrungen machen.
Zusätzlich wird ein neuer Benchmark "Corrupted Visual Genome (VG-C)" eingeführt, der 20 verschiedene Bildverzerrungen wie Nebel, Regen oder Sonneneinstrahlung enthält. Experimente zeigen, dass HiKER-SGG nicht nur auf verzerrten Bildern deutlich bessere Ergebnisse erzielt als der Stand der Technik, sondern auch auf unverfälschten Bildern konkurrenzfähig ist.
통계
Die Leistung von HiKER-SGG auf verzerrten Bildern ist im Durchschnitt 4% besser als die der Vergleichsmethoden.
Im Vergleich zu sauberen Bildern zeigt HiKER-SGG einen geringeren Leistungsrückgang von 14,8% gegenüber 20,9% bei EB-Net und 22,0% bei GB-Net.
HiKER-SGG hat 455,9 Millionen Parameter, was etwas mehr ist als die Vergleichsmethoden mit 405,2 bis 448,8 Millionen Parametern.
Die Trainingszeit von HiKER-SGG beträgt 101,3 Minuten, was etwas länger ist als die 84,6 bis 89,7 Minuten der Vergleichsmethoden.
인용구
"HiKER-SGG nutzt eine hierarchische Wissensrepräsentation, um Szenen auch unter widrigen Bedingungen wie Wetterverschlechterungen oder Bildstörungen präzise zu analysieren und Szenengraphen zu erstellen."
"Experimente zeigen, dass HiKER-SGG nicht nur auf verzerrten Bildern deutlich bessere Ergebnisse erzielt als der Stand der Technik, sondern auch auf unverfälschten Bildern konkurrenzfähig ist."