Die Studie präsentiert SimA, einen Softmax-freien Aufmerksamkeitsblock für Vision-Transformatoren. Im Gegensatz zu herkömmlichen Aufmerksamkeitsmechanismen, die die Softmax-Funktion verwenden, normalisiert SimA die Abfrage- und Schlüsselmatrizen mit der ℓ1-Norm, um den Wettbewerb zwischen den Tokens zu ermöglichen. Dadurch lässt sich der gesamte Aufmerksamkeitsmechanismus auf eine einfache Multiplikation von drei Matrizen reduzieren, was die Berechnung vereinfacht.
Darüber hinaus kann SimA die Reihenfolge der Multiplikation dynamisch wählen, um die Berechnung linear in der Anzahl der Tokens oder Kanäle zu gestalten. Die Autoren zeigen, dass SimA, wenn es in drei SOTA-Varianten von Transformatoren (DeiT, XCiT und CvT) eingesetzt wird, eine vergleichbare Genauigkeit wie die SOTA-Modelle erzielt, ohne den Softmax-Layer zu benötigen. Interessanterweise hat der Wechsel von Multi-Head- zu Single-Head-Aufmerksamkeit nur einen geringen Einfluss auf die Genauigkeit, was die Aufmerksamkeitsblöcke weiter vereinfacht. Darüber hinaus ist SimA auf kleinen Edge-Geräten deutlich schneller, was vermutlich auf die höhere Komplexität der Softmax-Schicht auf diesen Geräten zurückzuführen ist.
翻譯成其他語言
從原文內容
arxiv.org
深入探究