Eine Datensynthese-Methode wird vorgeschlagen, um die Robustheit von Objektdetektoren gegen Domänenverschiebung, wie z.B. durch Nebel oder Dunst, zu verbessern.
F-UAV-D ist ein eingebettetes System, das die Erkennung von schnell fliegenden Drohnen in Echtzeit und mit geringem Stromverbrauch ermöglicht, indem es ereignisbasierte Bildsensoren und Deep-Learning-Algorithmen nutzt.
Unser Ansatz GenFlow ermöglicht sowohl Genauigkeit als auch Generalisierung auf neuartige Objekte durch die Verwendung der 3D-Formvorgabe des Zielobjekts. Unser Verfahren schätzt den optischen Fluss zwischen dem gerenderten Bild und dem beobachteten Bild und verfeinert die 6D-Pose iterativ.
Die vorgeschlagene GRA-Methode (Group-wise Rotating and Attention) erfasst effizient und genau die Orientierungsinformationen von Objekten, indem sie eine gruppenweise Rotation der Faltungskerne und eine gruppenweise Aufmerksamkeitsmechanismus kombiniert.
Die Methode GRA (Group-wise Rotating and Attention) kann die feingranularen Merkmale von Objekten mit verschiedenen Ausrichtungen effektiv erfassen, indem sie zwei Schlüsselkomponenten nutzt: Gruppenweise Rotation und Gruppenweise Aufmerksamkeit. Dies ermöglicht eine präzisere Objekterkennung bei gleichzeitiger Reduzierung der Parameter.
HCF-Net ist ein tiefes Lernmodell, das die Leistung der Erkennung kleiner Objekte in Infrarotbildern durch mehrere praktische Module erheblich verbessert.
Das vorgeschlagene PSDiff-Modell formuliert die Personensuche als einen dualen Entfernungsprozess von verrauschten Boxen und ReID-Einbettungen zu Grundwahrheiten. Es entwirft eine neue Collaborative Denoising Layer (CDL), um Detektions- und ReID-Teilaufgaben iterativ und kollaborativ zu optimieren, was die beiden Teilaufgaben gegenseitig verstärkt.
TaskCLIP ist ein zweistufiges Modell, das allgemeine Objekterkennung mit aufgabengeleiteter Objektauswahl kombiniert. Es nutzt leistungsfähige Bild-Sprache-Modelle als Rückgrat und kalibriert deren Bild- und Texteinbettungen neu, um eine präzisere Zuordnung zwischen Objekten und Aufgabenanforderungen zu ermöglichen.
Einführung von MOD-CL, einem Multi-Label-Objekterkennungsrahmenwerk, das im Trainingsprozess Constrained Loss verwendet, um Ausgaben zu erzeugen, die die vorgegebenen Anforderungen besser erfüllen.
Durch gemeinsames räumlich-zeitliches Schließen auf Ereignisdaten kann die Integrität der Struktur bewegter Objekte effektiv verbessert werden.