Unser Ansatz RDED ermöglicht eine effiziente Datensatzverdichtung, die sowohl Realismus als auch Diversität der synthetischen Daten gewährleistet.
Durch Maskierung von Text in Bildern und anschließendes Filtern anhand der Ähnlichkeit zwischen maskiertem Bild und Bildunterschrift kann die Leistung von Modellen für visuelle Repräsentationslernung deutlich verbessert werden.
Das vorgeschlagene Verfahren zur Selbstkalibrierung der Konfidenz in kontinuierlichen Mehrklassen-Klassifikationsmodellen überwindet die Herausforderung der partiellen Etikettierung, indem es die Beziehungen zwischen Klassen über einen klasseninkrementellen Graphen-Konvolutionsnetwerk (CI-GCN) modelliert und eine Max-Entropie-Regularisierung zur Kalibrierung der Konfidenz verwendet.
Unser Ansatz TFS-ViT verbessert die Leistung von Vision Transformers auf unbekannten Domänen, indem er die Token-Merkmale durch Mischen der Normalisierungsstatistiken von Bildern aus verschiedenen Domänen synthetisiert. Wir erweitern diesen Ansatz mit einer neuartigen Aufmerksamkeits-gesteuerten Stilisierungsstrategie, die die Aufmerksamkeitskarten der Klassifikations-Token nutzt, um die Normalisierungsstatistiken der Token entsprechend verschiedener Bildregionen zu berechnen und zu mischen.
HVDistill überträgt Wissen aus einem vortrainierten 2D-Bildnetzwerk auf ein 3D-Punktwolken-Netzwerk durch eine Hybrid-View-basierte kontrastive Destillation. Dabei werden sowohl die Bildebene als auch die Vogelperspektive genutzt, um eine effektive 3D-Repräsentation zu lernen.
Eine duale Studentenarchitektur mit vertrauenswürdigem progressivem Lernen (DuPL) kann die Bestätigungsverzerrung von Klassen-Aktivierungskarten (CAM) effektiv reduzieren und die Qualität der Pseudo-Labels verbessern, was zu einer überlegenen Segmentierungsleistung führt.
Durch die Disentanglement von Beziehungen zwischen Kategorien kann das Wenig-Schritt-Klasseninkrementelle Lernen effektiv verbessert werden.
Eine neuartige Methode zur Rekalibrierung der Normalisierungsstatistiken für jede Instanz in einem Testbatch, indem sie mit mehreren verschiedenen Statistikkomponenten gemischt wird, um das i.i.d.-Szenario inhärent zu simulieren.
Wir stellen einen neuartigen Ansatz auf Basis von Intervall-Bound-Propagation (IBP) zur formalen Verifizierung von Objekterkennungsmodellen vor, der speziell auf die Intersection-over-Union (IoU)-Metrik abzielt. Unser Verfahren ermöglicht es, die Stabilität von Objekterkennungsmodellen gegenüber plausiblen Störungen zu zertifizieren.
Mamba-ND, eine Erweiterung des Mamba-Architektur, erreicht wettbewerbsfähige Leistungen auf verschiedenen mehrdimensionalen Benchmarks bei gleichzeitiger Reduzierung der Parameteranzahl im Vergleich zu Transformer-basierten Modellen.