Optimierung der Bereitstellung von Tiny Transformers auf Niedrigenergie-MCUs
Dieser Artikel präsentiert einen umfassenden Rahmen zur flexiblen und plattformübergreifenden Bereitstellung von Encoder-Tiny-Transformer-Modellen auf kommerziellen MCUs. Durch neuartige Optimierungen wie fusionierte Gewichtsaufmerksamkeit und eine Tiefe-First-Aufteilung für die Multi-Head-Selbstaufmerksamkeit können die Latenz und der Speicherverbrauch erheblich reduziert werden.