Effiziente Skalierung von Vision Transformern durch einen neuartigen Kanal-Mixer
Ein neuartiger Kanal-Mixer, genannt SCHEME, ermöglicht eine effiziente Skalierung von Vision Transformern, indem er eine blockdiagonale MLP-Struktur mit einer parameterlosen Kanal-Aufmerksamkeit kombiniert. Dies erlaubt eine flexible Kontrolle des Genauigkeits-Komplexitäts-Kompromisses.