Durch den Einsatz von effizienten Datenladestrategien, progressivem Training und anderen Techniken können Maskierte Autoenkoder in nur 18 Stunden auf dem ImageNet 1K-Datensatz trainiert werden, was eine Beschleunigung um den Faktor 5,8 bedeutet.
Durch die Verwendung der Fr´ echet ResNet-Distanz (FRD) zur Bewertung von Stapeln und der Einführung einer Huber-Verlustfunktion zur Reduzierung des Einflusses falscher positiver und negativer Paare können robustere Darstellungen aus unmarkierten Daten gewonnen werden.
Der Artikel präsentiert einen neuen Ansatz namens Multi-View-Entropie-Flaschenhals (MVEB), um eine minimale ausreichende Darstellung in selbstüberwachten Lernumgebungen zu lernen. MVEB vereinfacht das Lernen der minimalen ausreichenden Darstellung auf den Prozess der Maximierung sowohl der Übereinstimmung zwischen den Einbettungen zweier Ansichten als auch der differenziellen Entropie der Einbettungsverteilung.
Eine Batch-Fusion-Rekonstruktionsstrategie, die die selbstüberwachten Signale aus Batches in selbstüberwachten Vergleichslernverfahren neu modelliert, ohne das ursprüngliche Lernparadigma wesentlich zu ändern. Dies ermöglicht den fusionierten Datentensor, die Kommunikation zwischen allen Datenindividuen in einer einzigen Batch-Ladung zu erreichen.
Trajektorienregularisierung verbessert die Leistung des selbstüberwachten geometrischen Darstellungslernens ohne die semantische Klassifizierungsgenauigkeit zu beeinträchtigen.
Durch den Einsatz eines vortrainierten generativen Modells zur Erstellung von Ansichten und einer qualitätsgesteuerten kontrastiven Verlustfunktion kann die Leistung des selbstüberwachten Lernens deutlich verbessert werden.