Wir entwickeln ein neuartiges Verfahren namens ADAPT, um die adversariale Robustheit von Sichtbarkeitstransformatoren durch adaptives Prompt-Tuning zu verbessern. ADAPT überwindet die Schwächen bestehender Methoden, die unter Gradient-Obfuscation leiden, und erreicht eine deutlich höhere Robustheit bei ähnlicher Leistung auf ungestörten Daten.
Eine neuartige vertikale föderierte Architektur, die Bildsegmentierung in verteilten Umgebungen ermöglicht, indem sie Bilder auf einem Federat und Segmentierungskarten auf einem anderen Federat verarbeitet.
Synthetische Daten können verwendet werden, um die Leistung von Modellen für domänenübergreifende Bildsuche zu verbessern, wenn keine Beispiele aus den gleichen Kategorien in beiden Domänen vorhanden sind.
Durch den Einsatz eines Gesichtsrestaurationsmodells auf Basis von Diffusion können sowohl die visuelle Qualität als auch die Übertragbarkeit von Adversarial-Beispielen für Gesichtserkennungssysteme verbessert werden.
Wir präsentieren einen neuartigen Graph-Co-Training-Ansatz (GCT), der das Problem der Feature-Extractor-Maladaptation in halbüberwachtem Lernen weniger Beispiele adressiert. GCT kombiniert ein neuartiges Isolated Graph Learning (IGL) mit einem Co-Training-Rahmenwerk, um die Robustheit des Klassifikators durch Fusion multimodaler Informationen zu verbessern.
Wir präsentieren einen neuartigen Ansatz namens Graph Co-Training (GCT), der das Problem der Nicht-Anpassungsfähigkeit des Merkmalextraktors beim semi-überwachten Lernen mit wenigen Beispielen adressiert. GCT kombiniert einen neuartigen Graphlernklassifikator (IGL) mit einem Co-Training-Verfahren, um die Robustheit des Klassifikators durch die Fusion von Multimodalinformationen zu verbessern.
Durch das Erlernen von Verschiebungsvektoren für Klassenprototypen in einem gemeinsamen Einbettungsraum können Vision-Sprache-Modelle effizient an Zieldatensätze angepasst werden, um die Klassifikationsgenauigkeit zu verbessern.
Eine selbstüberwachte Lernmethode wird vorgestellt, um ein eingefrorenes Grundmodell für die standortübergreifende visuelle Geolokalisierung anzupassen, ohne auf gekennzeichnete Bildpaare angewiesen zu sein.
Die Integration von Embedding-Vektoren aus großen Sprachmodellen in Kombination mit allgemeinen vortrainierten Embedding-Vektoren führt zu erheblichen Leistungsverbesserungen bei der nullbasierten Objektzustandsklassifizierung.
Ein neuartiges Gaussian- und kausales Aufmerksamkeitsmodell (GCAM) wird vorgestellt, um die Konzentration des Netzwerks auf Objektpositionen durch das Training einer Gaussian-Verteilungskarte der Objektpositionen und die gemeinsame Gewichtung mit globalen Merkmaleingaben zu verbessern. Darüber hinaus wird ein kausaler Graph und eine Verlustfunktion konstruiert, um die Qualitätsverbesserung des Aufmerksamkeitsmechanismus des Netzwerks zu quantifizieren und seine Anfälligkeit für Datendrift zu reduzieren.