Der Artikel untersucht verschiedene Komponenten des "Masked Image Modeling" (MIM) im Hinblick auf biologische Sehwahrnehmung. Als leistungsfähige Alternative zu den in der künstlichen Repräsentationslernung üblichen zufälligen Patch-Masken identifizieren die Autoren das biologisch plausiblere periphere Maskieren. Dieses Vorgehen erfordert keine Einschränkungen bezüglich der zeitlichen Abfolge der Eingaben oder Wissen über die räumliche Ausdehnung von Objekten, um negative Beispiele zu erhalten. Ein weiterer Vorteil des verwendeten Ansatzes gegenüber rein diskriminativen Methoden ist das Erlernen eines generativen Modells.
Aus theoretischer Sicht zeigt sich, dass MIM Neuronen im latenten Raum implizit dekorreliert, eine Eigenschaft, von der angenommen wird, dass sie die visuellen Darstellungen in Primaten strukturiert, ohne explizit reguliert zu werden. Zusammen mit früheren Erkenntnissen zum Erlernen von Invarianz hebt dies eine interessante Verbindung von MIM zu Ansätzen der latenten Regularisierung für selbstüberwachtes Lernen hervor.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen