Effiziente Verarbeitung von Deep Learning und HPC-Kerneln durch hochabstrakte Schleifen- und Tensor-Abstraktionen auf CPU-Architekturen
Ein Framework zur Entwicklung effizienter und portabler Deep Learning und HPC-Kernels für moderne CPU-Architekturen, das die Berechnung über Tensor-Verarbeitungsprimitive (TPPs) und die Steuerung der Schleifen über eine deklarative, hochabstrakte Schnittstelle trennt.