Dieses Papier führt die neuartige Aufgabe der Wenig-Schritt-Objektlokalisierung (FSOL) ein, die darauf abzielt, nicht nur Objekte zu erkennen, sondern auch genaue Positionsinformationen innerhalb des Bildes bereitzustellen. Im Gegensatz zu Aufgaben der Wenig-Schritt-Objektzählung, die sich in erster Linie auf die Quantitätsanalyse konzentrieren.
Um die Herausforderungen durch erhebliche Intraklassen-Variationen und Verdeckungen in Lokalisierungsaufgaben zu bewältigen, schlagen die Autoren ein Dual-Pfad-Feature-Augmentation-Modul (DFA) vor. Das DFA-Modul besteht aus zwei Hauptkomponenten: einem Deformationsast und einem Gradientenast. Der Deformationsast ermöglicht es dem Modell, flexible Zuordnungsbeziehungen innerhalb von Intraklassen-Merkmalen zu erlernen, um die Lokalisierungsgenauigkeit durch Erfassung deformierbarer Merkmale in Unterstützungs- und Abfragebildern zu verbessern. Der Gradientenast betont den Vergleich von Gradientenähnlichkeiten zwischen Unterstützungs- und Abfragebildern während der Ähnlichkeitsberechnung, um die Fähigkeit des Modells zur Unterscheidung von Objektmerkmalen zu verbessern und Auslassungen effektiv zu reduzieren.
Darüber hinaus führen die Autoren ein Self-Query-Modul (SQ) ein, um die Verteilungsinformationen des Abfragebildes in die erhaltene Ähnlichkeitskarte einzubinden. Dadurch wird das Modell befähigt, die Ähnlichkeitsinformationen zur Identifizierung und Lokalisierung herausfordernder Proben optimal zu nutzen, was Objektauslassungen reduziert und die Generalisierungsfähigkeit des Modells verbessert.
Die experimentellen Ergebnisse zeigen eine erhebliche Leistungsverbesserung des vorgeschlagenen Ansatzes bei der FSOL-Aufgabe und etablieren eine effiziente Referenz für weitere Forschungen im Bereich der Objektlokalisierung unter Bedingungen mit begrenzten Daten.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yunhan Ren,B... om arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12466.pdfDiepere vragen