Unser Modell ermöglicht eine effiziente und leistungsstarke offene Vokabular-Erkennung visueller Beziehungen, indem es Objekte und Beziehungen direkt im Bildencoder modelliert, ohne zusätzliche Beziehungsmodule oder Decoder zu verwenden.
Die Kernaussage dieses Artikels ist, dass die vorgeschlagene Methode "SpeaQ" die Leistung von Transformer-basierten Modellen für die visuelle Beziehungserkennung durch zwei Schlüsselkomponenten konsistent verbessert: Gruppenweise Abfragespezialisierung und qualitätsbewusste Mehrfachzuweisung.