Transformers und ConvNeXt zeigen ein stärker kompositionales Verhalten, bei dem die Entscheidung auf der gemeinsamen Berücksichtigung mehrerer Bildteile basiert, während traditionelle CNNs und destillierte Transformers ein stärker disjunktives Verhalten aufweisen und sich auf mehrere diverse, aber kleinere Bildteile stützen.
Durch das Einführen eines parallelen Netzwerkzweigs, der ein verzerrtes Bild als zusätzliches Diskrepanzsignal verwendet, kann ein universelleres und robusteres Deepfake-Erkennungssystem entwickelt werden.
Ein neuartiger kontrastbasierter Lernrahmen, der realistische physikalische Angriffe wie OTSA nutzt, um die Robustheit von SAR-Bildklassifizierungsmodellen zu verbessern, indem er Informationen über Klassenlabels verwendet, um saubere und gestörte Bilder in einem informativeren Merkmalsraum zusammenzufassen.
Die Arbeit schlägt einen Ansatz zur Erstellung von Ensembles von Klassifikatoren basierend auf dem Univariaten Marginalen Verteilungsalgorithmus (UMDA) für die Klassifizierung von Luftbildszenen vor. Die Ergebnisse zeigen, dass dieser Ansatz die Klassifikationsleistung im Vergleich zu einzelnen Deep-Metric-Learning-Klassifikatoren und traditionellen vortrainierten Convolutional Neural Networks (CNN) verbessern kann.
Generative künstliche Intelligenz hat zu einer zunehmenden Verbreitung von Deepfakes und künstlich generierten (synthetischen) Medien geführt, was verschiedene ethische und moralische Bedenken hinsichtlich ihrer Verwendung aufwirft. Die Studie untersucht die Trends und Muster in echten, Deepfake- und synthetischen Gesichtsbildern, um festzustellen, ob es sich bei diesen drei Bildklassen um tatsächlich unterschiedliche Kategorien handelt.
Eine Fusionsmethode, die globale Texturen und lokale Patch-basierte Informationen kombiniert, um die Leistung bei der feinkörnigen Bildklassifizierung zu verbessern.
Durch die Formulierung der Ausgaben der Aktionserkennung als Bilder kann die Aufgabe effektiv durch einen dreistufigen Bildgenerierungsprozess gelöst werden, der die Startpunkt-, Endpunkt- und Aktionsklassenvorhersagen als Bilder erzeugt.
WMD, die erste Black-Box-Methode zur Erkennung beliebiger unsichtbarer Wasserzeichen in Datensätzen, nutzt selbstüberwachtes Lernen, um Wasserzeichen zuverlässig zu identifizieren, ohne Kenntnisse über die verwendeten Wasserzeichentechniken oder Decodierverfahren zu benötigen.
SPTNet ist ein zweistufiges iteratives Lernframework, das sowohl Modellparameter (d.h. Modell-Finetuning) als auch Datenparameter (d.h. Prompt-Lernen) optimiert, um die Leistung bei der generalisierten Kategorieentdeckung zu verbessern. Darüber hinaus schlagen wir eine neuartige Methode zur räumlichen Prompt-Abstimmung (SPT) vor, die die räumlichen Eigenschaften von Bilddaten berücksichtigt, um die Methode auf Objektteile zu fokussieren, die zwischen bekannten und unbekannten Klassen übertragen werden können.
Die vorgeschlagene Methode der Skalendekoppelten Destillation (SDD) ermöglicht es, feinkörniges und eindeutiges semantisches Wissen aus dem Lehrer-Modell in das Schüler-Modell zu übertragen, indem der globale Logit-Output in mehrere lokale Logit-Outputs dekomprimiert wird. Dadurch kann der Schüler die mehrskalige Semantik des Lehrers besser erlernen und seine Diskriminierungsfähigkeit für mehrdeutige Samples verbessern.