Core Concepts
Die Kernaussage dieses Artikels ist, dass die vorgeschlagene Methode "SpeaQ" die Leistung von Transformer-basierten Modellen für die visuelle Beziehungserkennung durch zwei Schlüsselkomponenten konsistent verbessert: Gruppenweise Abfragespezialisierung und qualitätsbewusste Mehrfachzuweisung.
Abstract
Der Artikel behandelt die visuelle Beziehungserkennung, eine Aufgabe, bei der Instanzen (Subjekt, Objekt) und ihre Beziehung (Prädikat) in einem Bild erkannt werden sollen. Transformer-basierte Architekturen haben in diesem Bereich in letzter Zeit bemerkenswerte Leistungen erbracht.
Der Artikel identifiziert zwei Hauptprobleme bei der üblichen Zuordnung von Vorhersagen zu Grundwahrheiten (Ground Truth) beim Training von Transformer-basierten Modellen:
Eine "unspezifische" Abfrage wird trainiert, da eine Abfrage erwartet wird, alle Beziehungen zu erkennen, was es für eine Abfrage schwierig macht, sich auf spezifische Beziehungen zu spezialisieren.
Eine Abfrage wird unzureichend trainiert, da eine Grundwahrheit nur einer einzigen Vorhersage zugewiesen wird, wodurch nahezu korrekte oder sogar korrekte Vorhersagen durch die Zuweisung von "keine Beziehung (∅)" als Grundwahrheit unterdrückt werden.
Um diese Probleme anzugehen, schlagen die Autoren "SpeaQ" vor, das aus zwei Komponenten besteht:
Gruppenweise Abfragespezialisierung: Hierbei werden Abfragen und Beziehungen in disjunkte Gruppen eingeteilt, und eine Abfrage in einer bestimmten Abfragegruppe wird ausschließlich auf Beziehungen in der entsprechenden Beziehungsgruppe trainiert.
Qualitätsbewusste Mehrfachzuweisung: Hierbei wird eine Grundwahrheit mehreren Vorhersagen zugewiesen, die in Bezug auf Subjekt, Objekt und Beziehung signifikant nahe an der Grundwahrheit liegen, um reichhaltigere Trainingssignale für vielversprechende Vorhersagen bereitzustellen.
Die experimentellen Ergebnisse zeigen, dass SpeaQ die Leistung verschiedener Transformer-basierter Modelle für die visuelle Beziehungserkennung und Erkennung von Mensch-Objekt-Interaktionen konsistent verbessert, ohne zusätzliche Inferenzkosten oder Modellparameter.
Stats
Etwa 45% der hochqualitativen Vorhersagen werden in der Visual Genome-Benchmark als "keine Beziehung (∅)" zugewiesen.
Die Gruppenverteilung der Grundwahrheiten und Abfragen ist in etwa proportional, wobei Gruppe 1 die häufigsten und Gruppe 5 die seltensten Prädikate enthält.
Quotes
"Unspezifische" Abfragen, die erwartet werden, alle Beziehungen zu erkennen, machen es schwierig für eine Abfrage, sich auf spezifische Beziehungen zu spezialisieren.
Nahezu korrekte oder sogar korrekte Vorhersagen werden durch die Zuweisung von "keine Beziehung (∅)" als Grundwahrheit unterdrückt.