Strukturierte Initialisierung für Aufmerksamkeit in Vision Transformern
Die Architektur von Convolutional Neural Networks (CNNs) kann als Initialisierungsverzerrung in Vision Transformers (ViTs) interpretiert werden. Durch eine strukturierte Initialisierung der Aufmerksamkeitskarten in ViTs können die induktiven Voreinstellungen von CNNs eingebettet werden, ohne die architektonische Flexibilität von Transformers zu beeinträchtigen.